AITalk® SDK

シンプルなAPIで自然な音声合成を実現

AITalk® SDK

AITalk® SDKは、人間らしく自然な音声で自由に音声合成をする事ができ、
ライブラリ(dllまたはso)で提供する音声合成SDK(ソフトウェア開発キット)です。
最新バージョンのAITalk®5 SDKでは、活用シーンや、機器スペック、感情音声利用の有無により、
音声合成方式を選択することで、お客様の理想の音声を実現できます。

AITalk® SDK

主な用途

ロボット/機器への組込み/パッケージソフトへの組込み/接客・店舗支援

提供形態

ライブラリ(dll、so)

機能紹介

感情調整

感情調整

シチュエーションや用途に合わせた感情表現を実現しました。

※一部の話者のみ利用可能です。

イントネーション調整

イントネーション調整

最適なイントネーションに調整することが可能です。

単語登録

単語登録

業界や分野特有の専門用語や略語、製品名などの固有名詞の読み方を予め登録することが可能です。

ライブラリ(dllまたはso)でのご提供

ライブラリ(dllまたはso)でのご提供

Windows用、Linux用それぞれの環境に適した、利便の良いライブラリーをご提供致します

具体的な活用シーン

来客通知・番号呼び出しシステム

病院の受付等で、カルテに入力した名前を、リアルタイムで音声呼び出すシステムを実現できます。
画像認識技術等と連携することで、画像と顧客情報を照合し、来客を音声で通知できるシステムを実現できます。

来客通知・番号呼び出しシステム

自動放送システム

防災行政無線や、館内放送などの放送システムにAITalk® SDKを実装し、可変的な情報でもリアルタイムで音声合成し、放送することができます。

自動放送システム

作業指示システム

生産現場において、作業内容の音声指示をおこない、ハンズフリー・アイズフリーによる作業指示を実現することができます。
新製品や、作業内容の変更も、AITalk® SDKのリアルタイム音声合成により即対応することができます。

作業指示システム

開発時のシステム構成イメージ

防災システム・STB

中間言語(テキストデータ)の送信により通信データ量を軽減・運用側で放送音声を合成/確認・STBへ送信する中間言語を生成

来客通知・番号呼び出しシステム

名前読みに特化した言語辞書のカスタマイズが可能(別途カスタマイズ費用が発生)

作業指示システム

チューニングツールAITalk 声の職人で作成したユーザー辞書により、製品名・作業内容の読み方を正しく登録

ソフトウェア・アプリケーション

開発時に作成したプログラムをそのまま配布可能

動作環境

OS(Windows)

Windows 11 日本語版(64 bit)
Windows 10 日本語版(64 bit)
Windows 8.1 日本語版(64 bit)
Windows 10 日本語版(32 bit) *1
Windows 8.1 日本語版(32 bit) *1
Windows Server 2022 日本語版
Windows Server 2019 日本語版
Windows Server 2016 日本語版
Windows Server 2012 R2 日本語版
Windows Server 2012 日本語版

CPU

Intel Pentium 4 又はAMD Athlon 64以上のプロセッサ *2

メモリ

約600MB(1話者使用時) *3

HDD/SSD

約600MB(1話者使用時) *3

※話者1名につき300MB程度の追加

※DNN 音声合成の話者は、1名につき20MB程度の追加

開発環境

Microsoft Visual Studio 2015 Update 3
Microsoft Visual Studio 2017
Microsoft Visual Studio 2019

開発言語

C/C++
C# (.NET Framework)

※Javaは動作実績がございます。別途お問い合わせください。

ファイル
フォーマット

16bit リニア PCM 形式
8bit リニア PCM 形式
8bit μ-Law PCM 形式

サンプリング
周波数

48 kHz(標準)

※その他サンプリング周波数(22 kHz, 16 kHzなど)の音声辞書については別途お問い合わせください。

対応中間言語
フォーマット

AI 独自規格
JEITA TT-6004 規格

OS(Linux)

Red Hat Enterprise Linux: 7(64-bit), 8(64-bit),9(64-bit))
Cent OS: 7(64-bit), 8(64-bit))
Ubuntu: 18.04 LTS (64-bit), 20.04 LTS (64-bit), 22.04 LTS (64-bit)

CPU

Intel Pentium 4 又はAMD Athlon 64以上のプロセッサ *2

メモリ

約600MB(1話者使用時) *3

HDD/SSD

約600MB(1話者使用時) *3

※話者1名につき300MB程度の追加

※DNN 音声合成の話者は、1名につき20MB程度の追加

開発環境

gcc-7 以降

開発言語

C/C++
C# (.NET Framework)

※Javaは動作実績がございます。別途お問い合わせください。

ファイル
フォーマット

16bit リニア PCM 形式
8bit リニア PCM 形式
8bit μ-Law PCM 形式

サンプリング
周波数

48 kHz(標準)

※その他サンプリング周波数(22 kHz, 16 kHzなど)の音声辞書については別途お問い合わせください。

対応中間言語
フォーマット

AI 独自規格
JEITA TT-6004 規格

  • *1:32bit OS の場合 DNN パラメトリック音声合成の音声辞書をご利用いただくことはできません。
  • *2:DNN パラメトリック音声合成の音声辞書のご利用には AVX 拡張命令対応のプロセッサが必要です。
    (Intel “Sandy Bridge” Core i3 以上, AMD Bulldozer, AMD Jaguar 以上のプロセッサ)
  • *3:AITalk の利用する領域です。動作には、OS などの利用する領域が別途必要です。 また、話者によって必要な大きさは異なります。
    この値は「のぞみ」で計測した参考値です。
  • ※ 当製品は OSS を利用しています。製品同梱のライセンス情報をご確認ください。
  • ※ 記載以外の開発環境は別途お問い合わせください。

価格

AITalk®5 SDK は、開発時に必要な基本ライセンス+商用利用時に必要な商用ライセンスとなります。

価格についてのご質問や音声合成活用全般に関してのご相談を受け付けています。
ライセンス形態や価格などご不明な点についてお気軽にお問い合わせください。

お問い合わせはこちら

AITalk® SDKの
主な導入先

すべての事例を見る

その他の製品・サービス

すべての製品・サービスを見る

お問い合わせ・ご相談