リップシンクデータ

AITalk 製品の扱うリップシンクデータを説明します。 リップシンクデータは AITalk の音声合成データの各時刻の口の形の情報 (発話情報) です。 例えば、再生中の音声に合わせて画像の口の形を変更させるために利用できます。

リップシンクデータ仕様

リップシンクデータは、合成音声データに対する以下の 2 つの情報で構成されています。

  • 発話情報 (母音、子音、ポーズ (無音))

  • 時間情報 (開始からその発話情報までの時間 (サンプル数など))

リップシンクデータの出力例

以下は「エーアイは人間的で自然な音声合成を実現しました。」を合成した場合のリップシンクデータの 1 例です。

対応する日本語

サンプル数

発話情報

0

--

0

e

2319

e

4916

a

7493

i

9586

w

10983

a

14774

--

22933

ny

23862

i

26302

N

(以下省略)

注釈

音声辞書やユーザー辞書読み込み状態・パラメーター設定などにより、出力は異なることがあります。

リップシンクコールバック

AITalk®5 SDK 製品でリップシンクデータを受け取るには、コールバック関数を使います。 リップシンクデータのコールバック機能をオンにすると、音声合成実行中にリップシンクデータがコールバック関数に渡されます。

出力データ

コールバック関数はリップシンクデータを引数として受け取ります。 時間情報としてサンプル数を出力しますが、実際の経過時間とは異なります。

発話情報

各発話に対応する子音+母音の組み合わせ一覧となります。

lipsync_pronunciation_table