ユーザー辞書概要¶
AITalk 製品の扱うユーザー辞書の取り扱い概要を説明します。
AITalk での音声合成では、入力テキストの読み方を AITalk が解釈します。 この「読み方の解釈」を調整するためにユーザー辞書を使用します。
ユーザー辞書にはユーザー単語辞書・ユーザーフレーズ辞書の 2 種類があります。
ユーザー辞書の種類と特徴¶
ユーザー単語辞書¶
ユーザー単語辞書を用いると、AITalk 標準の言語辞書を拡張できます。
ユーザー単語辞書は、以下のような利用に適しています。
得意 |
不得意 |
---|---|
言語辞書にない新語、固有名詞を補完できる |
ユーザー単語を 100 % 適用できない |
品詞ごとに違う読みを登録できる |
優先度の調整が必要 |
単語 (形態素) 分割そのものに影響できる |
単語長に制限がある |
ユーザーフレーズ置換辞書¶
ユーザーフレーズ辞書を用いると、特定の文字列を決まった読み方にすることができます。 以降は「ユーザーフレーズ辞書」は「フレーズ辞書」と記します。
フレーズ辞書は、以下のような利用に適しています。
得意 |
不得意 |
---|---|
100 % 意図した読みが適用できる |
意図せずフレーズを含む場合に読みがおかしくなる |
フレーズ長は無制限 |
ユーザー辞書の適用タイミングについて¶
音声合成前のテキスト処理は次のような流れです。
文の分割
フレーズ
様々な言語処理 (形態素解析を含む)
フレーズ辞書は手順 2 で、ユーザー単語辞書は手順 3 の形態素解析で利用されます。
手順 1 で文の分割を行ったあとにユーザー辞書が利用されるため、いずれのユーザー辞書も文の境界を越えての適用はされません。
また、同じ見出しの ユーザー単語
と フレーズ
では、フレーズの置換が優先されます。
同じ見出しが同じ種類の複数のユーザー辞書に登録されていた場合は、後に読み込んだユーザー辞書が優先されます。
チューニングガイド¶
ユーザー辞書を使って意図した読みを実現するコツや、チューニングの基本となる考え方を紹介します。
ユーザー辞書の選び方¶
登録した読みを適用するべき箇所がわかっていて、必ず適用したい場合はフレーズ辞書が適しています。 新語、固有名詞を追加する時など、同じ単語でもさまざまな読みがあって、文脈によって読みを変えなければならない場合は、ユーザー単語辞書が適しています。
特定の範囲内のみユーザー辞書を適用する方法¶
登録したユーザー辞書をテキスト中のどの箇所で使いたいかがはっきりしていて、それ以外の場所では使われたくない場合があります。 その時は適用したい単語を、他で現れない囲い文字で区別することで、狙った箇所のみでユーザー辞書を適用できます。
例えば、以下の文を含む入力テキストを AITalk で音声合成するとします。
紹介します、彼は神戸さんです。
入力テキストの単語「神戸」は AITalk はデフォルトでは「カンベ」と読みます。 (文脈から AITalk が地名だと判断した場合はデフォルトでは「コウベ」と読みます。)
ここでは、この文は「ゴウド」と読ませたいが、この文以外に入力テキストに含まれる「神戸」にはユーザー辞書を適用したくない、とします。
その場合、ユーザー辞書の見出しに 《《神戸》》
で登録して読み込ませた後に、この文を以下に変更して音声合成します。
紹介します、彼は《《神戸》》さんです。
《《
》》
で囲った単語が他の箇所に登場することはないため、狙った箇所のみで確実にユーザー辞書を適用できます。