AITalk® Server

WEB、電話等、さまざまなサービスをリアルタイムに

AITalk® Server

AITalk®6 Serverは、電話自動応答やインターネットサービスなど、ネットワークを利用し、
マルチタスクで合成処理を行う場合に最適なエンジンです。

AITalk® Server

主な用途

情報配信・メディア/電話自動応答システム/WEBキャンペーン・サービス/防災・警報

提供形態

サーバー設置型

機能紹介

最新の高品質な音声合成エンジンに対応

従来の「波形接続合成方式」と、最新の深層学習技術を活用した「新DNN音声合成方式」を兼ね備えた高品質な音声合成エンジンを使用しています。

独自に研究開発した日本語解析技術を搭載し、文章を自然な日本語で読み上げます。

HTTP

RESTインターフェース対応

多くのプラットフォームや言語で標準的にサポートされているため、様々なプログラミング言語で簡単に音声合成機能を利用することができます。

マルチスレッド対応

HTTP/2 対応

対応クライアントでは、従来の HTTP/1.1 に比べより少ない通信で迅速にやり取りが可能です。その他、HTTPS, CORS 等のサーバ機能にも対応しています。

 

生成 AI と連動可能な
入力ストリーミング音声合成

生成 AI の Stream 応答 API と連動することで返答の完成を待たずに並行して音声を生成することができます。GPT-4, Claude3, Gemini Pro 等の様々な生成 AI の他、自社構築した LLM でも利用可能です。

イントネーション調整

GUI アプリケーションを利用することでイントネーションを自由に、かつ簡単に調整することが可能です。

構成図

(※1)データ連携はRESTインターフェース(対応の場合HTTP/2,非対応の場合HTTP/1.1)での連携になります

具体的な活用シーン

電話自動応答システムの音声として

音声ガイダンスの変更や差替えなどを手軽にスピーディーに行うことができます。

電話自動応答システムの音声として

WEBサービスやキャンペーンで活用

インパクトあるキャンペーンやウェブサービスを実現。音声読み上げによりアクセシビリティも向上します。

WEBサービスやキャンペーンで活用

開発時のシステム構成イメージ

ユーザー識別子の活用(放送管理システム)

ユーザー識別子で利用するユーザー録音を指定・各拠点ごとに固有のユーザー録音の利用が可能

マルチスレッドによる音声合成処理機能の活用(IVR・CTI)

複数チャンネルでの音声合成処理が可能

Serverとmicroを活用した
ハイブリットシステム(ニュース配信)

システム側のAITalk®により高品質な言語解析が可能・中間言語をサーバー側にキャッシュしておくことでオフライン状態でも音声合成が可能

動作環境

OS (Windows)

Windows 11 日本語版(64 bit)
Windows 10 日本語版(64 bit)
Windows Server 2022 日本語版
Windows Server 2019 日本語版
Windows Server 2016 日本語版

OS (RHEL Linux)

RHEL9 *1
RHEL8

OS (Ubuntu Linux)  

Ubuntu Linux 24.04 LTS

Ubuntu Linux 22.04 LTS

Ubuntu Linux 20.04 LTS

Amazon Linux

Amazon Linux 2023

CPU

日本語(波形接続合成方式): Intel Core i3 または AMD 同等以上のプロセッサ
日本語(新DNN音声合成方式): Intel Core i7-8700 または AMD 同等以上のプロセッサ

メモリ

日本語(波形接続合成方式):約 250 MB *2
日本語(新DNN音声合成方式): 約 1,100 MB *2

HDD/SSD

製品本体 約 600 MB
日本語 1 話者:
 波形接続合成方式: 約 900 MB *2
 新DNN音声合成方式: 約 200 MB *2

ファイル
フォーマット *3

16bit リニア PCM (WAVE ヘッダ有/無)
μ-Law (WAVE ヘッダ有/無)
A-Law (WAVE ヘッダ有/無)
mp3

サンプリング
周波数

48kHz
44.1kHz
24kHz
22.05kHz
16kHz
11kHz
8kHz

対応中間言語
(入力のみ)

JEITA TT-6004 規格

  • *1: RHEL 互換 OS についても基本的には動作いたします。個別の互換 OS の動作保証については弊社営業窓口までお問い合わせ下さい。
  • *2:複数ボイス利用時は累計した RAM, ROM が必要となります。
  • *3:音声はモノラルとなります。音声合成時のサンプリング周波数は、音声辞書によって異なります。音声辞書は 48kHz, 44kHz, 22kHz, 16kHz のいずれかです。付属するリサンプリング処理機能を用いて、任意のサンプリング周波数の音声データを得られます。
  • サポート期間の終了した OS については、上記に記載のある場合でも本製品のサポート対象外となります。
  • ※ 当製品は OSS を利用しています。製品同梱のライセンス情報をご確認ください。
  • ※ 記載以外の開発環境は別途お問い合わせください。

価格

AITalk® Server は、開発時に必要な基本ライセンス+商用利用時に必要な商用ライセンスとなります。

価格についてのご質問や音声合成活用全般に関してのご相談を受け付けています。
ライセンス形態や価格などご不明な点についてお気軽にお問い合わせください。

お問い合わせはこちら

2024年7月18日リニューアル!
詳細はこちらからご確認ください

AITalk® Serverの
主な導入先

すべての事例を見る

その他の製品・サービス

すべての製品・サービスを見る

お問い合わせ・ご相談