リップシンクデータ¶

AITalk 製品の扱うリップシンクデータを説明します。リップシンクデータは AITalk の音声合成データの各時刻の口の形の情報 (発話情報) です。例えば、再生中の音声に合わせて画像の口の形を変更させるために利用できます。

リップシンクデータ仕様¶

リップシンクデータは、合成音声データに対する以下の 2 つの情報で構成されています。

以下は「エーアイは人間的で自然な音声合成を実現しました。」を合成した場合のリップシンクデータの 1 例です。

注釈

音声辞書やユーザー辞書読み込み状態・パラメーター設定などにより、出力は異なることがあります。

AITalk®5 SDK 製品でリップシンクデータを受け取るには、コールバック関数を使います。リップシンクデータのコールバック機能をオンにすると、音声合成実行中にリップシンクデータがコールバック関数に渡されます。

コールバック関数はリップシンクデータを引数として受け取ります。時間情報としてサンプル数を出力しますが、実際の経過時間とは異なります。

各発話に対応する子音+母音の組み合わせ一覧となります。

lipsync_pronunciation_table