AITalk® SDK | 製品 | 音声合成ソフトは株式会社エーアイ

主な用途

ロボット／機器への組込み／パッケージソフトへの組込み／接客・店舗支援

提供形態

ライブラリ（dll、so）

動作環境・仕様についてはこちら

当製品に関するお問い合わせはこちら

機能紹介

60種類以上の言語に対応

英語、中国語、韓国語をはじめとした様々な国や地域64種類の言語に対応。
セレンス社（Cerence Inc.）が提供するCerence TTSを活用した高品質な音声です。

感情調整

シチュエーションや用途に合わせた感情表現を実現しました。

※一部の話者のみ利用可能です。

イントネーション調整

最適なイントネーションに調整することが可能です。

単語登録

業界や分野特有の専門用語や略語、製品名などの固有名詞の読み方を予め登録することが可能です。

ライブラリ（dllまたはso）でのご提供

Windows用、Linux用それぞれの環境に適した、利便の良いライブラリーをご提供致します

マルチスレッド対応

並列での音声合成に対応。高いパフォーマンスを実現します。

外国語音声サンプル

英語（アメリカ）

Evan（男性）: サンプル

Allison（女性）: サンプル

Nathan（男性）: サンプル

Zoe（女性）: サンプル

中国語（北京語）

Bobo（男性）: サンプル

Shasha（女性）: サンプル

韓国語

Minsu（男性）: サンプル

Yuna（女性）: サンプル

スペイン語（メキシコ）

Juan（男性）: サンプル

Paulina（女性）: サンプル

ポルトガル語（ブラジル）

Felipe（男性）: サンプル

Luciana（女性）: サンプル

タイ語

Kanya（女性）: サンプル

ベトナム語

Linh（女性）: サンプル

インドネシア語

Damayanti（女性）: サンプル

その他にも幅広い言語に対応しております。詳細はお問い合わせください。

英語（イギリス・オーストラリア）、中国語（台湾）、広東語（香港）、マレー語、イタリア語、オランダ語、スロバキア語、スウェーデン語、ノルウェー語、ルーマニア語、ドイツ語、フランス語、ロシア語など

具体的な活用シーン

来客通知・番号呼び出しシステム

病院の受付等で、カルテに入力した名前を、リアルタイムで音声呼び出すシステムを実現できます。
画像認識技術等と連携することで、画像と顧客情報を照合し、来客を音声で通知できるシステムを実現できます。

自動放送システム

防災行政無線や、館内放送などの放送システムにAITalk® SDKを実装し、可変的な情報でもリアルタイムで音声合成し、放送することができます。

作業指示システム

生産現場において、作業内容の音声指示をおこない、ハンズフリー・アイズフリーによる作業指示を実現することができます。
新製品や、作業内容の変更も、AITalk® SDKのリアルタイム音声合成により即対応することができます。

開発時のシステム構成イメージ

防災システム・STB

中間言語（テキストデータ）の送信により通信データ量を軽減・運用側で放送音声を合成/確認・STBへ送信する中間言語を生成

来客通知・番号呼び出しシステム

名前読みに特化した言語辞書のカスタマイズが可能（別途カスタマイズ費用が発生）

作業指示システム

チューニングツールAITalk 声の職人で作成したユーザー辞書により、製品名・作業内容の読み方を正しく登録

ソフトウェア・アプリケーション

開発時に作成したプログラムをそのまま配布可能

AITalk SDK 動作環境

OS (Windows)	Windows 11 日本語版 (64 bit) Windows 10 日本語版 (64 bit) Windows Server 2022 日本語版 (64 bit) Windows Server 2019 日本語版 (64 bit) Windows Server 2016 日本語版 (64 bit)
OS (Linux)	Red Hat Enterprice Linux 9 (9.10) Debian 12 Debian 11 Ubuntu 24.04 LTS Ubuntu 22.04 LTS
CPU	日本語（波形接続合成方式）： Intel Core i3 または AMD 同等以上のプロセッサ日本語（新DNN音声合成方式）： Intel Core i7-8700 または AMD 同等以上のプロセッサ外国語: Intel Core i3 または AMD 同等以上のプロセッサ ※ 新DNN方式の話者を使用してストリーミング再生を行う場合、指定未満の環境では音飛びが発生いたします。ご注意ください。 ※ AVX拡張子命令対応のプロセッサが必要です。
メモリ	日本語 (波形接続合成方式)：約 500 MB 日本語 (新 DNN 音声合成方式)：約 700 MB 外国語：約 350 MB ※利用する話者やマルチスレッド利用等によって使用量は増減する可能性がございます。あらかじめご注意ください。
HDD/SSD	製品本体：約 550 MB 日本語 1 話者：　波形接続合成方式：750 MB 　新 DNN 音声合成方式：250 MB 外国語 1 話者：約 45 MB
開発環境	Windows：Microsoft Visual Studio 2015 Update 3 以降 Linux：gcc-10 以降
開発言語	C/C++ ※他の開発言語を使用する場合は、FFI を作成していただく必要がございます。
ファイルフォーマット	16 bit リニア PCM 形式 (Little Endian)
サンプリング周波数	日本語:48kHz 外国語:22.05kHz ※話者のデフォルト周波数になります。 ※その他の周波数は、パラメータを変更することで利用することができます。
対応中間言語 (入力のみ)	日本語:JEITA TT-6004 規格

※ 当製品は OSS を利用しています。製品同梱のライセンス情報をご確認ください。
※ 記載以外の開発環境は別途お問い合わせください。

価格

AITalk® SDK は、開発時に必要な基本ライセンス＋商用利用時に必要な商用ライセンスとなります。

価格についてのご質問や音声合成活用全般に関してのご相談を受け付けています。
ライセンス形態や価格などご不明な点についてお気軽にお問い合わせください。

お問い合わせはこちら

2024/1/17 リニューアル！
リニューアル内容はこちらからご確認ください。

※一部話者に用途制限があります

AITalk® SDKの
主な導入先

株式会社BluePort 　

ソフトウェア

マニュアル作成ツール「iTutor」上での音声作成としての利用

利用したサービス

用途

e-Learning・教材・マニュアル作成

株式会社ウェイブ

広告・出版・マスコミ

キャラクターのイメージに合う声優さんの声で、音声合成による会話システムを開発することができました

利用したサービス

用途

音声対話

ロゴスウェア株式会社

ソフトウェア

プレゼン型コンテンツ作成ソフト「LOGOSWARE STORM Xe」にて音声作成エンジンとして採用

利用したサービス

用途

PowerPointナレーション作成

テクノブロード株式会社

IT・インターネット

単語辞書登録機能により、専門用語も正しく読み上げることができるので、お客様からも好評をいただいています。

利用したサービス

用途

e-Learning・教材・マニュアル作成

日本中央競馬会（JRA）

レジャー

音声を自動で生成し、映像・テキストと一体化した情報の一斉放送が実現できました

利用したサービス

用途

観光案内・館内・社内各種放送

株式会社QBIT Robotics

ロボット

キャラクターイメージに合う、理想的な音声を作成できました

利用したサービス

用途

ロボット

ATR 石黒浩特別研究所

ロボット

本人に近い声で対話ができるようになり研究やデモンストレーションの幅が広がりました

利用したサービス

用途

ロボット

株式会社デンソーセールス

製造

クライアントからの要望であった、音声によるお客の来店通知を実現することができました。

利用したサービス

用途

機器への組込み
接客・店舗支援

すべての事例を見る

その他の製品・サービス

文字起こし・議事録作成システム

Windowsアプリケーション

OtoNoteは、スタンドアローン型の自動文字起こし・議事録作成システムです。AI音声認識を利用して議事録を自動で作成します。インターネット環境が無くても利用可能で、情報漏洩のリスクを減らせます。 ※「OtoNote」は株式会社議事録発行センターの製品です。

文字起こし
議事録作成

音のAI検査

SDK／Windowsアプリケーション

独自の音響処理とAI技術によって、機械製品や生産設備の稼働音を分析し、異音を検知します。これまで熟練者の経験や勘に頼っていた音の聞き分けや、時間や場所の制約により不可能であった検査を、vGate Aispect®のAI検査・識別によって実現し、点検業務の自動化と省力化を支援します。

製品出荷前の不良品検知
製造ラインや機械設備の予兆検知や稼働監視（音や振動による正常性のモニタリング）

音声認識システム

WebAPI／SDK／ASPサービス／オンプレミス

音声認識システム「vGate ASR®」は、騒音環境に強く高精度で、IoT、ロボットやAIなどの先進技術を用いた製品やサービスに適しています。インターネットに接続して音声認識を行う「サーバー型音声認識システム」と、機器に組み込んで音声認識を行う「ローカル型音声認識システム」のご提供が可能です。

IoT・ロボットの音声対話
自動電話応答の音声入力
自動車・カーナビなどの音声検索
端末・アプリケーションの音声操作

声認証システム

WebAPI／SDK／ASPサービス／オンプレミス

声認証は、音声の固有の特徴を分析し、個人を識別する技術です。
 様々なシステム、コミュニケーションロボットやスマートデバイスでの個人特定を目的としたサービスなどに活用されています。また、セキュリティを強化し、ユーザー認証を迅速かつ効率的に行うことができます。

IoT・ロボットのユーザ識別
各種機器での個人特定
議事録の話者分離

「AITalk® 声の職人®」がWebブラウザ上で利用できる

日本語ナレーション作成

クラウド / API / SaaS

「AITalk® 声の職人®」がWebブラウザ上で利用できるサービスとして登場！総勢15名の話者が使い放題！クラウド版だから、もっと手軽に音声作成

電話自動応答システム
動画ナレーション制作
e-Learning・教材・マニュアル作成
機器への組込み

ナレーション・ガイダンス作成代行

音声ファイル納品

音声合成による、ナレーション・ガイダンス音声の作成代行サービスです。ご用意いただいた収録原稿から、エーアイの高品質音声合成AITalkによる音声データを納品します。

観光案内・館内・社内各種放送
電話自動応答システム
動画ナレーション制作
e-Learning・教材・マニュアル作成

感情表現対応

音声コンテンツを簡単作成！PowerPoint®用アドインソフト

PowerPoint®用アドインソフト

PCインストール

「AITalk® 声プラス®」は、PowerPoint®のスライドに簡単に音声をプラスできるPowerPoint®アドインソフトです。

動画ナレーション制作
e-Learning・教材・マニュアル作成

感情表現対応

WEB、電話等、さまざまなサービスをリアルタイムに

サーバー設置型音声合成

サーバー設置型

電話自動応答やインターネットサービスなど、ネットワークを利用し、マルチタスクで合成処理を行う場合に最適なエンジンです。

情報配信・メディア
電話自動応答システム
WEBキャンペーン・サービス
防災・警報

感情表現対応

Android・iOS対応
小型機器組み込み用音声合成SDK

ライブラリ（dll、so）

Android・iOSに対応した組み込み用小型音声合成SDKです。小型ながらも充実した機能を提供します。

スマートフォンアプリケーション
オートモーティブ
ロボット
ゲーム

すべての製品・サービスを見る

主な用途

提供形態

当製品に関するお問い合わせはこちら

製品導入までの流れ

資料ダウンロード

お問い合わせ

機能紹介

60種類以上の言語に対応

感情調整

イントネーション調整

単語登録

ライブラリ（dllまたはso）でのご提供

マルチスレッド対応

外国語音声サンプル

英語（アメリカ）

中国語（北京語）

韓国語

スペイン語（メキシコ）

ポルトガル語（ブラジル）

タイ語

ベトナム語

インドネシア語

具体的な活用シーン

来客通知・番号呼び出しシステム

自動放送システム

作業指示システム

開発時のシステム構成イメージ

防災システム・STB

来客通知・番号呼び出しシステム

作業指示システム

ソフトウェア・アプリケーション

AITalk SDK 動作環境

価格

AITalk® SDKの主な導入先

マニュアル作成ツール「iTutor」上での音声作成としての利用

キャラクターのイメージに合う声優さんの声で、音声合成による会話システムを開発することができました

プレゼン型コンテンツ作成ソフト「LOGOSWARE STORM Xe」にて音声作成エンジンとして採用

単語辞書登録機能により、専門用語も正しく読み上げることができるので、お客様からも好評をいただいています。

音声を自動で生成し、映像・テキストと一体化した 情報の一斉放送が実現できました

キャラクターイメージに合う、理想的な音声を作成できました

本人に近い声で対話ができるようになり研究やデモンストレーションの幅が広がりました

クライアントからの要望であった、音声によるお客の来店通知を実現することができました。

その他の製品・サービス

AITalk® SDKの
主な導入先

音声を自動で生成し、映像・テキストと一体化した情報の一斉放送が実現できました