ユーザー辞書概要¶

AITalk 製品の扱うユーザー辞書の取り扱い概要を説明します。

AITalk での音声合成では、入力テキストの読み方を AITalk が解釈します。この「読み方の解釈」を調整するためにユーザー辞書を使用します。

ユーザー辞書にはユーザー単語辞書・ユーザーフレーズ辞書の 2 種類があります。

ユーザー辞書の種類と特徴¶

ユーザー単語辞書を用いると、AITalk 標準の言語辞書を拡張できます。

ユーザー単語辞書は、以下のような利用に適しています。

ユーザーフレーズ辞書を用いると、特定の文字列を決まった読み方にすることができます。以降は「ユーザーフレーズ辞書」は「フレーズ辞書」と記します。

フレーズ辞書は、以下のような利用に適しています。

得意	不得意
100 % 意図した読みが適用できる	意図せずフレーズを含む場合に読みがおかしくなる
フレーズ長は無制限

音声合成前のテキスト処理は次のような流れです。

フレーズ辞書は手順 2 で、ユーザー単語辞書は手順 3 の形態素解析で利用されます。手順 1 で文の分割を行ったあとにユーザー辞書が利用されるため、いずれのユーザー辞書も文の境界を越えての適用はされません。また、同じ見出しの ユーザー単語 と フレーズ では、フレーズの置換が優先されます。

同じ見出しが同じ種類の複数のユーザー辞書に登録されていた場合は、後に読み込んだユーザー辞書が優先されます。

ユーザー辞書を使って意図した読みを実現するコツや、チューニングの基本となる考え方を紹介します。

登録した読みを適用するべき箇所がわかっていて、必ず適用したい場合はフレーズ辞書が適しています。新語、固有名詞を追加する時など、同じ単語でもさまざまな読みがあって、文脈によって読みを変えなければならない場合は、ユーザー単語辞書が適しています。

登録したユーザー辞書をテキスト中のどの箇所で使いたいかがはっきりしていて、それ以外の場所では使われたくない場合があります。その時は適用したい単語を、他で現れない囲い文字で区別することで、狙った箇所のみでユーザー辞書を適用できます。

例えば、以下の文を含む入力テキストを AITalk で音声合成するとします。

紹介します、彼は神戸さんです。

入力テキストの単語「神戸」は AITalk はデフォルトでは「カンベ」と読みます。 (文脈から AITalk が地名だと判断した場合はデフォルトでは「コウベ」と読みます。)

ここでは、この文は「ゴウド」と読ませたいが、この文以外に入力テキストに含まれる「神戸」にはユーザー辞書を適用したくない、とします。その場合、ユーザー辞書の見出しに 《《神戸》》 で登録して読み込ませた後に、この文を以下に変更して音声合成します。

紹介します、彼は《《神戸》》さんです。

《《 》》 で囲った単語が他の箇所に登場することはないため、狙った箇所のみで確実にユーザー辞書を適用できます。