AITalk® 声の職人［AICloud］ | 製品 | 音声合成ソフトは株式会社エーアイ

主な用途

電話自動応答システム／動画ナレーション制作／e-Learning・教材・マニュアル作成／機器への組込み

提供形態

クラウド / API / SaaS

動作環境・仕様についてはこちら

AITalk® 声の職人 Cloudの特徴

人間の声に近い自然な音声

声の職人Cloudは従来の機械音的な音声合成ではなく、人間の肉声に近い自然な音声を実現しました。
- デモンストレーションを試してみる
豊富な話者のラインナップ

子供～大人まで、多彩な標準語話者でシーンにあった用途にご利用いただけます。
オリジナル話者の利用も可能

オリジナル音声辞書作成サービス「AITalk CustomVoice」で作成したタレント、声優、キャラクター等のオリジナルの音声辞書を利用することも可能です。*別途音声辞書作成費用が必要です。
- 「AITalk CustomVoice」についてはこちら
直感的・簡単操作

直感的で簡単な操作でマニュアルを熟読しなくてもすぐに使い始める事で可能です。
- サンプル画面を試してみる
いつでも最新のバージョンが利用可能

バージョンアップ費用いらずで最新バージョンの音声合成エンジンが利用できます。
インストール不要。契約完了後すぐに使用可能

面倒なソフトのインストールは必要ありません。
契約が完了後送付するIDとパスワードを入力すればすぐに使用することができます。
複数拠点でも使用可能

MACアドレス認証やUSBキー認証の必要がないので複数拠点での作業が可能です。
SoundUDトリガー音声の作成に対応

ヤマハ株式会社が開発するSoundUD対応音響通信トリガー付き音声作成に対応。対応アプリケーションを通じ発信することができる文字情報を作成できます。

機能紹介

単語登録

特殊な読み方をする単語を辞書として登録・保存することが可能です。

イントネーション調整

アクセントマークを移動するだけで、最適なイントネーションに調整することが可能です。音量・話速・抑揚等の細かい調整をアクセント句単位で行う事や、調整したイントネーションを登録しておくことができます。

抑揚調整機能

話者の抑揚を簡単に調整することが可能です。

話速変換

0.5～4.0倍の範囲でスピードの調整が可能です。

感情調整機能

シチュエーションや用途に合わせた感情表現を実現しました。

※一部の話者のみ利用可能です。

ピッチ調整

0.5～2.0倍の範囲でピッチ（声の高さ）の調整が可能です。

音量調整機能

0.5～2.0倍の範囲で音量の調整が可能です。

音声一括保存

複数のテキストを同時に編集し音声を一括で保存できます。

各種カウント機能

入力テキストの文字数をカウントすることができます。また、作成した音声ファイルの秒数も確認することができます。

SSML^※対応

テキスト入力欄にSSML(マークアップ言語)形式で記述することで、読上げの細かな制御が可能です。話者の指定／音量、話速、ピッチ、抑揚の調整／ポーズ設定／ヨミの指定等を文中の一部分のみ指定し制御することが可能です。

SoundUD対応音声作成オプション

ヤマハ株式会社が開発するSoundUD対応音響通信トリガー付き音声作成に対応。対応アプリケーションを通じ発信することができる文字情報を作成できます。

多要素認証機能オプション

セキュリティ対策として、サービスログイン時にID/パスワードに加えてSMSを用いた多要素認証もご利用いただけます。

SSML(speech synthesis markup language)とは・・？

合成音声を生成するのに必要な発音、音量、ピッチ等々をテキストに対してマーク付けを行う目的のXMLベースの言語。

パッケージ版とクラウド版の違いはこちら

使い方と画面イメージ

音声作成画面

作成する音声ファイルのタイトルを入力します。合成する文章を入力します。再生で音声の確認ができます。話者を選択できます。音量、話速、声高（ピッチ）、抑揚の設定ができます。テキストの保存が再生パラメーター設定値ごとに保存できます。音声ファイルを保存します。音声ファイル保存形式を選択できます。

ユーザー辞書編集画面（単語登録）

意図した通りに読めない単語などを登録しておくことができます。
登録時にアクセントを編集して登録しておくことができます。

音声一覧

保存した音声を音声ファイルとしてダウンロードしたり、再利用や編集等を行う事ができます。

テキスト一覧

保存したテキストを編集、再利用したりすることができます。

こんなお悩みを解決します

自社製品のガイダンス音声作成。バージョンアップごとに修正が必要だが、ランニングコストが気になる
開発中の試作機に、低予算で合成音声を使ったデモをしたい
自社の電話自動応答音声、定期的な変更はあるけど予算的に音声合成ソフトは導入しづらい
マニュアルやチュートリアル動画などのコンテンツにナレーション音声をつけたい
音声合成ソフトを自社で導入したいが、社内セキュリティ上ソフトウェアの導入が難しい

具体的な活用シーン

ロボット、放送機器、自販機、コインロッカー、券売機など、
各種端末機器・装置のガイダンス音声として

音声作成が必要なときに契約でき、費用も発生しないので、販売用製品でも、プロトタイプ製品でもランニングコストを抑えたまま高品質なガイダンスを合成音声で作成できます。

電話自動応答（IVR）音声として

電話応答音声の変更が発生する年末年始、GW休業、夏季休業時期などでのスポット契約ができるので、導入費用を抑えて気軽に高品質な音声ガイダンスを低コストで作ることができます。

マニュアル、チュートリアル動画のナレーションとして

誰でも簡単にテキストを入力するだけで音声作成ができるので、編集の際に発生するナレーションの差替えにもすぐに対応可能。コンテンツを作成しながらナレーションも同時作成できます。

アカウント発行だけで即！利用可能

ブラウザ上で音声を作成するので、面倒なソフトウェアの導入は不要。社内セキュリティ上ソフトウェアがインストールできない場合でも、音声合成サービスを手軽にクラウドで利用できます。

当製品に関するお問い合わせはこちら

仕様

出力ファイル
フォーマット^※1

WAV

44.1kHz	16ビット	mono
22.05kHz	16ビット	mono
11kHz	16ビット	mono
11kHz	8ビット	mono
8kHz	16ビット	mono
8kHz	8ビット	mono
8kHz	A-Law	mono
8kHz	μ-Law	mono

ogg

aac

mp3

推奨ブラウザ

IE（11～）／Chrome (43～)／Firefox (20～)／Microsoft Edge

最大合成可能文字数

およそ5000文字まで

インターネット接続回線

必須

読上げ可能な文字コード

Shift_JIS

※記号など一部読み上げしないものもあります。

※1：音声はモノラルとなります。

音声サンプル

出力フォーマット／話者	のぞみ（女性話者）	せいじ（男性話者）
wav 44.1kHz、16bit、mono	サンプル音声（のぞみ_44kHz16ビット.wav）	サンプル音声（せいじ_44kHz16ビット.wav）
wav 22.05kHz、16 bit、mono	サンプル音声（のぞみ_22kHz16ビット.wav）	サンプル音声（せいじ_22kHz16ビット.wav）
wav 16kHz、16 bit、mono	サンプル音声（のぞみ_16kHz16ビット.wav）	サンプル音声（せいじ_16kHz16ビット.wav）
wav 11kHz、16 bit、mono	サンプル音声（のぞみ_11kHz16ビット.wav）	サンプル音声（せいじ_11kHz16ビット.wav）
wav 11kHz、8 bit、mono	サンプル音声（のぞみ_11kHz8ビット.wav）	サンプル音声（せいじ_11kHz8ビット.wav）
wav 8kHz、16 bit、mono	サンプル音声（のぞみ_8kHz16ビット.wav）	サンプル音声（せいじ_8kHz16ビット.wav）
wav 8kHz、8bit、mono	サンプル音声（のぞみ_8kHz8ビット.wav）	サンプル音声（せいじ_8kHz8ビット.wav）
A -Law 8kHz、8bit、mono	サンプル音声（のぞみ_8kHzA-Law.wav）	サンプル音声（せいじ_8kHzA-Law.wav）
μ-Law 8kHz、8bit、mono	サンプル音声（のぞみ_8kHzμ-Law.wav）	サンプル音声（せいじ_8kHzμ-Law.wav）
ogg/vorbis 48kbps、22.05kHz、16bit	サンプル音声（のぞみ_22kHz16ビットOgg.ogg）	サンプル音声（せいじ_22kHz16ビットOgg.ogg）
aac 48kbps、22.05kHz、16bit	サンプル音声（のぞみ_22kHz 16ビットAAC形式.m4a）	サンプル音声（せいじ_22kHz 16ビットAAC形式.m4a）
mp3 48kbps、22.05kHz、16bit	サンプル音声（のぞみ_22kHz16ビット.mp3）	サンプル音声（せいじ_22kHz16ビット.mp3）

※音質確認用の音声サンプルです。評価以外ではご利用になれません。

パッケージ版との比較

	声の職人® パッケージ版	声の職人® クラウド版	声プラス®	AITalk International®
特徴	日本語ナレーション音声作成	日本語ナレーション音声作成	PowerPointスライドへのナレーション挿入	外国語ナレーション音声作成
対応言語	日本語	日本語	日本語	様々な外国語
音声ファイル保存	〇	〇	×	〇
PCインストール	必要	不要	必要	必要
インターネット接続	初回アクティベーション時にインターネット接続環境が必要になります。	常時必須	不要	不要
Mac、Unix対応	×	〇対応ブラウザ：主要なブラウザ(IE：11～ / Chrome (43～) / Firefox (20～) / Microsoft Edge)に対応	×	×
提供プラン	年間利用ライセンス無期限ライセンス	月額、年額	年間利用ライセンス	永年利用ライセンス
話者利用	初期2話者 ※追加話者は別途料金発生	日本語標準語全話者	初期2話者 ※追加話者は別途料金発生	初期1言語・1話者 ※追加言語・話者は別途料金発生
SSML対応	×	一部SSMLタグに対応(SSML仕様書)	×	×
イントネーション調整機能	〇	〇	〇	×
感情表現	〇	〇	〇	×
単語登録	〇	〇	〇	英語版のみ
音量調整	〇	〇	〇	〇
話速（スピード）調整	〇	〇	〇	〇
音高（ピッチ）調整	〇	〇	〇	×
抑揚調整	〇	〇	〇	×
ポーズ設定	文頭・文中・文末	SSMLタグで指定可能	文頭・文中・文末	文頭・文末

価格

	単月プラン	年間契約プラン
月・年間最大合成文字数	50,000文字/月	1,000,000文字/年
基本料金（消費税別）	50,000円	600,000円
追加料金	10,000円/10,000文字	10,000円/10,000文字
ユーザ辞書再登録オプション^※1	15,000円/回	15,000円/回
SoundUD対応音響通信オプション^※2	10,000円/月	100,000円/年

※1 リピーター様向けのオプション費用です。ユーザー辞書は契約終了時までに、お客様側でダウンロードおよび次回利用時まで保管いただきます。
※2 ヤマハ株式会社が開発する「SoundUD」ご活用企業様向けのオプションです。「SoundUD」の詳細についてはこちらをご参照ください。
※当サービスで作成した音声ファイルを２次販売（商用目的で配布）する場合には別途ロイヤリティが必要な場合があります。
※お支払い方法は、よくあるご質問のお支払方法についてをご確認ください。

ご利用開始までの流れ

1お問い合わせ

お問い合わせフォームよりお問い合わせください。

2エーアイからご連絡

担当営業より2営業日以内に折り返しご連絡いたします。

※ご用途やプランなどをヒアリングさせていただきます

3ID・パスワードご案内

当社よりID・PWを発行しメールにてお送りいたします。

4ご利用開始

お申込みプランの内容に基づきご利用を開始頂けます。ご不明な点はお問い合わせください。

【お知らせ】
・必要事項をご入力のうえ、お問い合わせください。
・お申込み後、担当者から折り返し、ご連絡致します。
・メールの受信設定にご注意ください。

AITalk® 声の職人［AICloud］の
主な導入先

WOWOWコミュニケーションズ

電話・コールセンター

WOWOWカスタマーセンターにおけるIVR音声の作成

利用したサービス

用途

電話自動応答システム

JCOM株式会社

電話・コールセンター

J:COMカスタマーセンターにおける、IVRの音声作成として

利用したサービス

用途

電話自動応答システム

株式会社 S-Works

IT・インターネット

「将棋アプリ将皇」の棋譜読み上げとして

利用したサービス

用途

ゲーム

株式会社アコーディア・ゴルフ

レジャー

様々な案内を、担当者の得手不得手に関わらず定期的に放送することが実現しました

利用したサービス

用途

観光案内・館内・社内各種放送
接客・店舗支援

株式会社カプコン

ゲーム

実際のボイスを収録を想定した場合、仕様変更による収録しなおしのコストやスタジオ手配の手間などが問題でした。

利用したサービス

用途

ゲーム

株式会社meleap

ゲーム

HADOシリーズのうち、今回はAITalkを「HADO SHOOT!」に利用しました。

利用したサービス

用途

ゲーム
動画ナレーション制作

ピクシブ株式会社

IT・インターネット

他社の合成音声についてはインストールできるPCが1台だったので他スタッフが対応しにくいという懸念がありました。

利用したサービス

用途

動画ナレーション制作

株式会社パシフィック湘南

製造

番号が読み上げられることでお客は気づきやすくなり、呼び出しが不要になることで従業員の業務負担軽減が実現できました

利用したサービス

用途

観光案内・館内・社内各種放送
機器への組込み
接客・店舗支援

すべての事例を見る

その他の製品・サービス

文字起こし・議事録作成システム

Windowsアプリケーション

OtoNoteは、スタンドアローン型の自動文字起こし・議事録作成システムです。AI音声認識を利用して議事録を自動で作成します。インターネット環境が無くても利用可能で、情報漏洩のリスクを減らせます。 ※「OtoNote」は株式会社議事録発行センターの製品です。

文字起こし
議事録作成

音のAI検査

SDK／Windowsアプリケーション

独自の音響処理とAI技術によって、機械製品や生産設備の稼働音を分析し、異音を検知します。これまで熟練者の経験や勘に頼っていた音の聞き分けや、時間や場所の制約により不可能であった検査を、vGate Aispect®のAI検査・識別によって実現し、点検業務の自動化と省力化を支援します。

製品出荷前の不良品検知
製造ラインや機械設備の予兆検知や稼働監視（音や振動による正常性のモニタリング）

音声認識システム

WebAPI／SDK／ASPサービス／オンプレミス

音声認識システム「vGate ASR®」は、騒音環境に強く高精度で、IoT、ロボットやAIなどの先進技術を用いた製品やサービスに適しています。インターネットに接続して音声認識を行う「サーバー型音声認識システム」と、機器に組み込んで音声認識を行う「ローカル型音声認識システム」のご提供が可能です。

IoT・ロボットの音声対話
自動電話応答の音声入力
自動車・カーナビなどの音声検索
端末・アプリケーションの音声操作

声認証システム

WebAPI／SDK／ASPサービス／オンプレミス

声認証は、音声の固有の特徴を分析し、個人を識別する技術です。
 様々なシステム、コミュニケーションロボットやスマートデバイスでの個人特定を目的としたサービスなどに活用されています。また、セキュリティを強化し、ユーザー認証を迅速かつ効率的に行うことができます。

IoT・ロボットのユーザ識別
各種機器での個人特定
議事録の話者分離

感情表現対応

シンプルなAPIで自然な音声合成を実現（外国語にも対応）

Windows／Linuxソフトウェア
開発キット・ライブラリ

ライブラリ（dll、so）

パッケージソフトやロボット、デジタルサイネージ等に最適なソフトウェア開発キットです。

ロボット
機器への組込み
パッケージソフトへの組込み
接客・店舗支援

ナレーション・ガイダンス作成代行

音声ファイル納品

音声合成による、ナレーション・ガイダンス音声の作成代行サービスです。ご用意いただいた収録原稿から、エーアイの高品質音声合成AITalkによる音声データを納品します。

観光案内・館内・社内各種放送
電話自動応答システム
動画ナレーション制作
e-Learning・教材・マニュアル作成

感情表現対応

音声コンテンツを簡単作成！PowerPoint®用アドインソフト

PowerPoint®用アドインソフト

PCインストール

「AITalk® 声プラス®」は、PowerPoint®のスライドに簡単に音声をプラスできるPowerPoint®アドインソフトです。

動画ナレーション制作
e-Learning・教材・マニュアル作成

感情表現対応

WEB、電話等、さまざまなサービスをリアルタイムに

サーバー設置型音声合成

サーバー設置型

電話自動応答やインターネットサービスなど、ネットワークを利用し、マルチタスクで合成処理を行う場合に最適なエンジンです。

情報配信・メディア
電話自動応答システム
WEBキャンペーン・サービス
防災・警報

感情表現対応

Android・iOS対応
小型機器組み込み用音声合成SDK

ライブラリ（dll、so）

Android・iOSに対応した組み込み用小型音声合成SDKです。小型ながらも充実した機能を提供します。

スマートフォンアプリケーション
オートモーティブ
ロボット
ゲーム

すべての製品・サービスを見る

資料ダウンロード

お問合せはこちら

評価版お申込み

お困りですか？

よくいただくご質問にお答えしています。

導入のきっかけや活用方法・導入後の効果などを、
インタビュー形式でご紹介します。

AI音声合成について

AI音声認識について

CRMについて

出力フォーマット／話者	のぞみ（女性話者）	せいじ（男性話者）
wav 44.1kHz、16bit、mono	サンプル音声（のぞみ_44kHz16ビット.wav）	サンプル音声（せいじ_44kHz16ビット.wav）
wav 22.05kHz、16 bit、mono	サンプル音声（のぞみ_22kHz16ビット.wav）	サンプル音声（せいじ_22kHz16ビット.wav）
wav 16kHz、16 bit、mono	サンプル音声（のぞみ_16kHz16ビット.wav）	サンプル音声（せいじ_16kHz16ビット.wav）
wav 11kHz、16 bit、mono	サンプル音声（のぞみ_11kHz16ビット.wav）	サンプル音声（せいじ_11kHz16ビット.wav）
wav 11kHz、8 bit、mono	サンプル音声（のぞみ_11kHz8ビット.wav）	サンプル音声（せいじ_11kHz8ビット.wav）
wav 8kHz、16 bit、mono	サンプル音声（のぞみ_8kHz16ビット.wav）	サンプル音声（せいじ_8kHz16ビット.wav）
wav 8kHz、8bit、mono	サンプル音声（のぞみ_8kHz8ビット.wav）	サンプル音声（せいじ_8kHz8ビット.wav）
A -Law 8kHz、8bit、mono	サンプル音声（のぞみ_8kHzA-Law.wav）	サンプル音声（せいじ_8kHzA-Law.wav）
μ-Law 8kHz、8bit、mono	サンプル音声（のぞみ_8kHzμ-Law.wav）	サンプル音声（せいじ_8kHzμ-Law.wav）
ogg/vorbis 48kbps、22.05kHz、16bit	サンプル音声（のぞみ_22kHz16ビットOgg.ogg）	サンプル音声（せいじ_22kHz16ビットOgg.ogg）
aac 48kbps、22.05kHz、16bit	サンプル音声（のぞみ_22kHz 16ビットAAC形式.m4a）	サンプル音声（せいじ_22kHz 16ビットAAC形式.m4a）
mp3 48kbps、22.05kHz、16bit	サンプル音声（のぞみ_22kHz16ビット.mp3）	サンプル音声（せいじ_22kHz16ビット.mp3）

主な用途

提供形態

AITalk® 声の職人 Cloudの特徴

人間の声に近い自然な音声

豊富な話者のラインナップ

オリジナル話者の利用も可能

直感的・簡単操作

いつでも最新のバージョンが利用可能

インストール不要。契約完了後すぐに使用可能

複数拠点でも使用可能

SoundUDトリガー音声の作成に対応

機能紹介

単語登録

イントネーション調整

抑揚調整機能

話速変換

感情調整機能

ピッチ調整

音量調整機能

音声一括保存

各種カウント機能

SSML※対応

SoundUD対応音声作成オプション

多要素認証機能オプション

使い方と画面イメージ

音声作成画面

ユーザー辞書編集画面（単語登録）

音声一覧

テキスト一覧

こんなお悩みを解決します

具体的な活用シーン

ロボット、放送機器、自販機、コインロッカー、券売機など、 各種端末機器・装置のガイダンス音声として

電話自動応答（IVR）音声として

マニュアル、チュートリアル動画のナレーションとして

アカウント発行だけで即！利用可能

当製品に関するお問い合わせはこちら

導入前のご相談

資料ダウンロード

利用申し込み

無料お試し

仕様

音声サンプル

パッケージ版との比較

声の職人® パッケージ版

声の職人® クラウド版

声プラス®

AITalk International®

価格

ご利用開始までの流れ

1お問い合わせ

2エーアイからご連絡

3ID・パスワードご案内

4ご利用開始

AITalk® 声の職人［AICloud］の主な導入先

WOWOWカスタマーセンターにおけるIVR音声の作成

J:COMカスタマーセンターにおける、IVRの音声作成として

「将棋アプリ将皇」の棋譜読み上げとして

様々な案内を、担当者の得手不得手に関わらず定期的に放送することが実現しました

実際のボイスを収録を想定した場合、仕様変更による収録しなおしのコストやスタジオ手配の手間などが問題でした。

HADOシリーズのうち、今回はAITalkを「HADO SHOOT!」に利用しました。

他社の合成音声についてはインストールできるPCが1台だったので他スタッフが対応しにくいという懸念がありました。

番号が読み上げられることでお客は気づきやすくなり、呼び出しが不要になることで従業員の業務負担軽減が実現できました

その他の製品・サービス

SSML^※対応

ロボット、放送機器、自販機、コインロッカー、券売機など、
各種端末機器・装置のガイダンス音声として

AITalk® 声の職人［AICloud］の
主な導入先