ユーザー辞書概要

AITalk 製品の扱うユーザー辞書の取り扱い概要を説明します。

AITalk での音声合成では、入力テキストの読み方を AITalk が解釈します。 この「読み方の解釈」を調整するためにユーザー辞書を使用します。

ユーザー辞書にはユーザー単語辞書・ユーザーフレーズ辞書の 2 種類があります。

ユーザー辞書の種類と特徴

ユーザー単語辞書

ユーザー単語辞書を用いると、AITalk 標準の言語辞書を拡張できます。

ユーザー単語辞書は、以下のような利用に適しています。

得意

不得意

言語辞書にない新語、固有名詞を補完できる

ユーザー単語を 100 % 適用できない

品詞ごとに違う読みを登録できる

優先度の調整が必要

単語 (形態素) 分割そのものに影響できる

単語長に制限がある

ユーザーフレーズ置換辞書

ユーザーフレーズ辞書を用いると、特定の文字列を決まった読み方にすることができます。 以降は「ユーザーフレーズ辞書」は「フレーズ辞書」と記します。

フレーズ辞書は、以下のような利用に適しています。

得意

不得意

100 % 意図した読みが適用できる

意図せずフレーズを含む場合に読みがおかしくなる

フレーズ長は無制限

ユーザー辞書の適用タイミングについて

音声合成前のテキスト処理は次のような流れです。

  1. 文の分割

  2. フレーズ

  3. 様々な言語処理 (形態素解析を含む)

フレーズ辞書は手順 2 で、ユーザー単語辞書は手順 3 の形態素解析で利用されます。 手順 1 で文の分割を行ったあとにユーザー辞書が利用されるため、いずれのユーザー辞書も文の境界を越えての適用はされません。 また、同じ見出しの ユーザー単語フレーズ では、フレーズの置換が優先されます。

同じ見出しが同じ種類の複数のユーザー辞書に登録されていた場合は、後に読み込んだユーザー辞書が優先されます。

チューニングガイド

ユーザー辞書を使って意図した読みを実現するコツや、チューニングの基本となる考え方を紹介します。

ユーザー辞書の選び方

登録した読みを適用するべき箇所がわかっていて、必ず適用したい場合はフレーズ辞書が適しています。 新語、固有名詞を追加する時など、同じ単語でもさまざまな読みがあって、文脈によって読みを変えなければならない場合は、ユーザー単語辞書が適しています。

特定の範囲内のみユーザー辞書を適用する方法

登録したユーザー辞書をテキスト中のどの箇所で使いたいかがはっきりしていて、それ以外の場所では使われたくない場合があります。 その時は適用したい単語を、他で現れない囲い文字で区別することで、狙った箇所のみでユーザー辞書を適用できます。

例えば、以下の文を含む入力テキストを AITalk で音声合成するとします。

紹介します、彼は神戸さんです。

入力テキストの単語「神戸」は AITalk はデフォルトでは「カンベ」と読みます。 (文脈から AITalk が地名だと判断した場合はデフォルトでは「コウベ」と読みます。)

ここでは、この文は「ゴウド」と読ませたいが、この文以外に入力テキストに含まれる「神戸」にはユーザー辞書を適用したくない、とします。 その場合、ユーザー辞書の見出しに 《《神戸》》 で登録して読み込ませた後に、この文を以下に変更して音声合成します。

紹介します、彼は《《神戸》》さんです。

《《 》》 で囲った単語が他の箇所に登場することはないため、狙った箇所のみで確実にユーザー辞書を適用できます。