既存の音からAI音声合成はできる？自然な声を生成するコツや費用も解説

2025/12/02 / AI

一般的に、AI音声合成で声を再現する際は、プロの指導のもと1時間程度収録するのが望ましいですが、音声データやAI音声合成サービスによっては既存の音から声を再現することも可能です。

この記事では、既存の音からAI音声合成を行う方法と、自然な音を再現するコツを解説します。古い音源を利用する際の注意点や費用についても触れていますので、ぜひ参考にしてください。

既存の音からAI音声合成はできる？

オリジナルのAI音声を高品質に仕上げるには、専用の収録が求められるのが一般的です。決められた原稿を1時間程度読み上げてデータを集めることで、滑らかなイントネーションを再現しやすくなります。

一方で、病気などで新たな収録が難しい場合でも、残された音源の長さや音質に応じてAI音声を生成することは可能です。

故人の声を再現する方法については、以下の記事で詳しく解説しています。あわせてお読みください。

故人の声を再現する方法は？AI音声合成を利用するときの注意点を解説

既存の音を使ってAI音声合成を行うステップ

実際に、既存の音源からAI音声合成を行う手順を見ていきましょう。

ステップ①音声のみを抜き出す

まずはビデオやカセットテープなどのメディアからデータを取り出し、AIの学習に適したクリーンなデータに整えます。動画の場合は音声データのみを抽出し、扱いやすい形式で保存します。必要に応じてノイズ除去や音量の調整を行い、無音部分や残ったBGMをできるだけ減らします。

ステップ②発話されている内容をテキストとして書き起こす

ステップ①で抽出した音声を、正確に文字に起こします。AI音声合成はテキストをもとに音声を生成する技術のため、元の音声データと文字情報をきちんと対応させることが重要になります。

ステップ③音声とテキストの内容をあわせてAIに学習させる

AI学習用のマシンに音声とテキストのデータをアップロードし、学習させます。学習が完了すると、入力したテキストを学習した声で読み上げられるようになります。

AI音声合成で既存の音から声を再現・運用するときのポイント

既存の音源から自然なAI音声を得るには、元データのクリーンさと、利用するサービスの精度が重要です。あわせて、AI音声合成サービスとほかの機器やアプリとの連携性も確認すると、実際に運用するときに便利です。

ポイント①元のデータが自然に喋っていることが重要

既存の音声からAI音声を作る場合、元データが日常会話のように自然であることが望ましいです。プロの指導のもとで収録するのが理想的ですが、難しい場合は知人や家族との会話を録音するとよいでしょう。短い音声データでも、自然なトーンの音声があれば、その人らしさを再現しやすくなります。

一方で、スマートフォンやICレコーダーに向かって一人で話すと、人によっては緊張して普段と声色が変わることがあります。

ポイント②言語解析の質が高いAI音声合成サービスを選ぶ

「その人らしい声」を再現するには元音声の質が重要ですが、自然な日本語の抑揚や区切り、読点の扱い、固有名詞の読みの正確性などは、サービスの言語解析力や操作性に左右されます。

可能であれば、ベンダーが公開しているデモで長文を合成し、どの程度自然に聞こえるかを確認しましょう。その際、単語登録ができるか、操作性はどうかも確かめておくと安心です。

音声合成ソフトについては、以下の記事で詳しく解説しています。あわせてお読みください。

AI音声合成ソフトのおすすめ4選｜フリー・有料の違いと失敗しない選び方

ポイント③サービスの連携性もチェック

実際の運用を考慮し、サービスの連携性も確認しましょう。発話が難しい方が音声合成を使う場合、意思伝達装置やスマホと連携できると活用しやすくなります。外出先でも自分の声で会話ができ、家族や医療・介護スタッフとのコミュニケーションがスムーズになります。

法人が利用する際は、既存のシステムやアプリに組み込めるかどうか（SDK・APIへの対応など）を確認しておくと、導入がスムーズになります。

既存の音から自然な声を作る「AITalk® Custom Voice®」

エーアイが提供する「AITalk® Custom Voice®」は、オリジナルの音声を作成するAI音声合成サービスです。最新の合成エンジン「AITalk6」が人間らしい自然な声を生成し、生き生きとしたコミュニケーションを可能にします。過去に録音した音声データや動画から抽出した声も忠実に再現するため、新規で収録ができない場合もご相談ください。提供形態は用途に応じて柔軟にご提案いたします。

[ 資料ダウンロード ]
[ お問い合わせはこちら ]

既存の音からAI音声合成を行うときのよくある疑問

既存の音からAI音声合成を行う際、多くの人が気になりやすい点をまとめました。

Q：用意する動画や音声の長さの目安は？

AI音声合成の学習に使う素材の長さは、目的の自然さや語彙の幅により変わります。10〜20分程度のクリアな会話音声でも作成は可能です。

一方で、肉声感を高め、どんな原稿も自然な読み上げを実現したい場合は、合計で1時間程度の音源（動画）を用意できるとよいでしょう。

Q：昔の音源でもAI音声合成は作れる？

昔の音源からでも、音声がデータとして抽出できればAI音声合成の作成は可能です。エーアイでは、実際にレコード由来の音声から学習して合成音声を作った事例もあります。

ただし、生成される声の解像度や質感は、元の音源以上にはなりません。ノイズが多い、周波数帯域が狭い、歪みが強いといった素材を使う場合、声質や話し方は再現できても、最終的な音質は元のレベルから大きく改善することはありません。現代のスタジオ録音のような、クリアな音声にはならない点に注意してください。

Q：既存の音からAI音声合成を作成するのにかかる費用は？

既存の音からAI音声合成を作成する費用は、ノイズ除去や書き起こしなどの前処理の量によって変わります。特に「元の音質」と「データの長さ（分数・バリエーション）」はコストに影響しやすい要素です。

同じ要件でも音源の状態によって必要な作業が変わるため、料金を一律で示すことは難しいです。料金を知りたい場合は、サンプル音源と利用目的を添えて見積もりを依頼するのがおすすめです。

既存の音からのAI音声合成で大切な声を保存しよう

AI音声合成を使えば、故人や病気などで発話が困難になった方の声を、残された音声データから再現できます。ご遺族にとってのデジタル遺産として、あるいはご自身の声を残す手段としても役立ちます。

エーアイは、高品質なAI音声合成により、多くの声再現をお手伝いしてきました。導入から運用まで専門スタッフがサポートいたしますので、仕組みに不安がある方も安心してご相談ください。

[ お問い合わせはこちら ]

AITalk® Custom Voice®

「AITalk® Custom Voice®」は、芸能人や声優、自分の声を収録し、日本語音声合成用のオリジナル辞書を作成するサービスです。
文字を入力するだけで、本人の声のようなリアルな音声で喋らせることができるので、WEBキャンペーンや、スマートフォンのアプリケーション、ゲーム、バーチャルキャラクター、テレビ番組等で、インパクトのある音声コンテンツを実現できます。

更に詳しく