はじめに

本文書は AITalk®5 WebAPI のマニュアルです。 以降「AITalk®5 WebAPI」は「AITalk WebAPI」と記します。

AITalk®5 WebAPI は日本語音声合成エンジン AITalk® を搭載した日本語音声合成 WebAPI です。 以降「AITalk®」は「AITalk」と記します。

対象読者

本文書は、AITalk WebAPI と連携するシステムの開発者および運用者を対象にしています。

また、下記知識を前提としていますので、これらの概念を理解しておく必要があります。

  • Web サービス通信、HTTP/1.1。

  • XML (SSML)

  • JSON (JavaScript Object Notation) フォーマット [RFC-4627]

AITalk の特徴

AITalk は、従来の機械音による合成ではなく、人の声に基づいて合成する技術「コーパスベース音声合成方式」を採用した、より人間らしく自然な発話で合成することが可能な、高品質音声合成エンジンです。 AITalk 5 では、従来の「コーパスベース音声合成方式」に加えて、最新の深層学習技術を活用した「DNN 音声合成方式」の両方を搭載することで、利用シーンや実現したい音声に合わせて選択することができます。

AITalk には多彩な話者 (音声辞書) が標準で用意されています。 さらに、AITalk CustomVoice でオリジナルの話者を作成することもできます。

AITalk WebAPI の紹介

このバージョンの AITalk WebAPI は、以下のような特徴を備えています。

REST スタイル API

REST スタイルインターフェース (HTTP/1.1) を採用しています。 様々なプログラム言語から、簡単に利用する事ができます。

充実した日本語サポート機能

一般的な日本語に加えて、独自で使いたい日本語を登録・管理できます。 より理想に近い合成音声を実現します。

SSML サポート

音声合成マークアップ言語の標準仕様の 1 つである SSML をサポートします。 より表現力豊かで柔軟な音声合成ソリューションを提供します。

AITalk WebAPI の新機能

追加した機能

利用できるバージョン

自然言語処理機能の向上

AITalk WebAPI (5.0.0) 以上

DNN 音声合成機能

AITalk WebAPI (5.0.0) 以上

ボリュームの指定幅の向上

AITalk WebAPI (5.0.0) 以上

ポーズ調整機能

AITalk WebAPI (5.0.0) 以上

出力形式の拡張

AITalk WebAPI (5.0.0) 以上

自然言語処理機能の向上

より高性能な自然言語処理エンジンを利用しています。 チューニングなしでも、よりなめらかに読み上げます。

DNN 音声合成機能

「DNN 音声合成方式」を用いた音声辞書に対応しています。 最先端の深層学習技術を導入した DNN 音声合成方式で、音質・肉質感の向上、多様な発話表現を実現します。

ボリュームの指定幅の向上

指定できるボリュームの幅が広がりました。 ご要望の多かった、より大きな音での出力が可能です。

ポーズ調整機能

合成音声内に自動付与される 4 種類のポーズ長を指定できるようになりました。 発話表現の幅がより広がります。

出力形式の拡張

OGG, AAC, MP3 のビットレートを増やし、より良い音声を返却できるようになりました。

WAVE だけでなく、OGG, AAC, MP3 のサンプリングレートを指定できるようになりました。

AITalk WebAPI の未実装機能

以下機能は 5.0.0 では未実装です。 今後のアップデートで実装される予定です。

JEITA TT-6004 韻律記号文字列

「JEITA TT-6004 韻律記号文字列」出力は未実装です。

SSML の VOICE タグ

合成の入力を SSML としたときの VOICE タグは未実装です。

リリースノート

5.0.0 (2020/11/30)

  • AITalk®5 WebAPI をリリース。

免責事項

AITalk WebAPI は機能追加・仕様変更などの改良により、本文書の内容と異なる場合があります。 また、本文書に記載されている内容は、将来予告なしに変更することがあります。 なお、本文書に例として記述されている名称・話者名・ユーザー識別子などはすべて架空のもので、実在するものとは一切関係ありません。