ライブラリ構成

AITalk®5 SDK 製品の機能がどのような構成で提供されるか説明します。 以降「AITalk®5 SDK 製品」は「SDK」と記します。

構成概要

SDK は大きく 2 つの機能で構成されます。

1 つはテキスト処理・音声合成機能を提供するライブラリです。 以下「音声合成ライブラリ」と呼びます。

もう 1 つは、音声データをエンコードするライブラリです。 以下「音声エンコードライブラリ」と呼びます。

これらのライブラリの機能は SDK を初期化・認証しなければ使用できません。

各ライブラリに含まれる関数・クラス (API) の詳細は ライブラリリファレンス を参照してください。

node "SDK" {

  package "音声合成ライブラリ" as synthesis_library {
    component "初期化機能/ライセンス認証機能" as initialization_module
    component "音声合成機能" as synthesis_module
    component "補助機能" as synthesis_support_module
  }

  package "音声エンコードライブラリ" as encoder_library {
    component "エンコーダー機能" as encoder_module
    component "補助エンコーダー機能" as support_encoder_module
  }

}

' layout support

synthesis_support_module -[hidden]down- encoder_module

音声合成ライブラリ

ここでは「音声合成ライブラリ」の機能概要を説明します。 音声合成ライブラリは大まかに 3 つに区分する事ができます。

初期化機能

「SDK の初期化・終了機能」や「ライセンス認証機能」があります。

音声合成機能

「テキスト処理や音声合成を行う合成機能」や「合成パラメーターを変更する合成設定機能」・「テキスト処理を補助するユーザー辞書機能」・「合成位置情報 (マーカー) の展開機能」があります。

補助機能

「コールバックの振り分け機能」や「バージョン情報の取得機能」・「言語辞書情報・音声辞書情報の取得機能」があります。

詳細は ライブラリリファレンス を参照してください。

初期化機能

初期化機能は SDK 利用前後の処理の関数 (API) から成ります。

  • SDK のログを取得するコールバック関数を設定する

  • SDK を初期化する

  • SDK を終了する

  • SDK のライセンス認証を行う

  • SDK のライセンス認証の無効化処理を行う

SDK の機能を利用するためには初期化・ライセンス認証が必要です。 ログレベルの変更は初期化後にいつでも行えますが、ログのコールバック関数の設定は初期化前に行う必要があります。

!include ./style.uml

actor       "User"         as user
participant "SDK" as sdk

user -> sdk: ログ関数の設定
return
user -> sdk: 初期化
return
user -> sdk: ライセンス認証
return
ref over user, sdk: SDK ライブラリを利用する
user -> sdk: ライセンス無効化
return
user -> sdk: 終了処理
return

音声合成機能

音声合成機能は合成を行うための関数・クラス (API) から成ります。 事前に SDK の初期化 / ライセンス認証が必要です。

  • テキスト処理や音声合成を行う合成クラス

    • 言語辞書・音声辞書を読み込む / 読み込み解除する

    • 音声合成する

    • テキスト処理により AI 独自の文字列表現を生成する

      (AI 独自の文字列表現の詳細は AI 中間言語 を参照してください)

  • 合成パラメーターを変更する合成設定クラス

    • 合成パラメーター (音量・話速など) を設定する

    • テキスト処理を補助するユーザー辞書を登録する

      (ユーザー辞書の詳細は ユーザー辞書概要 を参照してください)

      • ユーザー単語辞書

      • ユーザーキーワード置換辞書

      • ユーザーフレーズ辞書

      • ユーザー記号ポーズ辞書

  • マーカーを展開する関数

補助機能

補助機能は音声合成に直接関わらない機能の関数・クラス (API) から成ります。 バージョン情報の取得を除き、事前に SDK の初期化 / ライセンス認証が必要です。

  • コールバックをイベントごとに振り分ける

  • バージョン情報を取得する

  • 言語辞書情報を取得する

  • 音声辞書情報を取得する

音声エンコードライブラリ

ここでは「音声エンコードライブラリ」の機能概要を説明します。

エンコーダー機能

「Wave エンコーダー」「ビット深度変換エンコーダー」「μ-Law エンコーダー」「リサンプリングエンコーダー」があります。

詳細は ライブラリリファレンス を参照してください。

エンコーダー機能

エンコーダー機能は音声データをストリーミングエンコードする機能の関数・クラス (API) から成ります。 事前に SDK の初期化 / ライセンス認証が必要です。

  • Wave エンコーダー

  • ビット深度変換エンコーダー

  • μ-Law エンコーダー

  • リサンプリングエンコーダー