リップシンクデータ¶
AITalk 製品の扱うリップシンクデータを説明します。 リップシンクデータは AITalk の音声合成データの各時刻の口の形の情報 (発話情報) です。 例えば、再生中の音声に合わせて画像の口の形を変更させるために利用できます。
リップシンクデータ仕様¶
リップシンクデータは、合成音声データに対する以下の 2 つの情報で構成されています。
発話情報 (母音、子音、ポーズ (無音))
時間情報 (開始からその発話情報までの時間 (サンプル数など))
リップシンクデータの出力例¶
以下は「エーアイは人間的で自然な音声合成を実現しました。」を合成した場合のリップシンクデータの 1 例です。
対応する日本語 |
サンプル数 |
発話情報 |
---|---|---|
0 |
-- |
|
エ |
0 |
e |
ー |
2319 |
e |
ア |
4916 |
a |
イ |
7493 |
i |
は |
9586 |
w |
10983 |
a |
|
14774 |
-- |
|
に |
22933 |
ny |
23862 |
i |
|
ん |
26302 |
N |
(以下省略) |
注釈
音声辞書やユーザー辞書読み込み状態・パラメーター設定などにより、出力は異なることがあります。