coestationcoestationcoestation

ブログ

音声合成の仕組みを紹介!「波形接続型合成方式」と「統計モデル型合成方式」とは?

  • このエントリーをはてなブックマークに追加
コンピュータの誕生と発展、そして大量のデータの蓄積と計算機の飛躍的な計算能力の向上にともない、音声合成の仕組みは歴史とともに進化を続けてきました。それは、より人間らしく聞こえる自然な発声を実現するための仕組みのあくなき探求の歴史であるとともに、人間が普段あまり意識することなく行っている発声とそれに使われる言語の仕組みを体系的に分析・解明してきたプロセスでもあります。

ここでは、昨今世界中で研究開発が盛んにおこなわれている「統計モデル型合成方式 」を中心に、音声合成のいくつかの方式をその歴史とともに簡単にご紹介します。
 

音声合成の仕組みとは

音声合成とは、コンピュータなどを使い人間の声を真似た音声を人工的に生成するもので、その技術を使えば、任意の文章(テキスト)を音声に変換してさまざまなことを発話させることができます。入力されたテキストからその読み上げ音声を生成するプロセスは、基本的に、大きく3つのステップに分けられます。

まずは、そのテキストがどのような言語情報を含むか、言語辞書と照らし合わせながら解析します。これにより、各単語の読みやアクセント位置、品詞情報などを推定します。 次に、各音韻をどのくらいの長さで、またどのくらいの声の高さで読み上げるかといったリズムやイントネーションの情報(韻律情報)を生成します。 最後に、韻律情報に基づいて、声色の情報を保持している音声素片辞書を使って音声波形を生成します。

そのようなプロセスに分けられる音声合成ですが、現在のようにコンピュータを使った音声合成器は1950年代に生まれ、より自然で効率的な生成方法を目指してさまざまな方式が生まれてきました。
 

音声合成の種類と歴史

音声合成はまず、駅の構内放送など限定的な内容を読み上げるのに適した「録音編集方式」と、さまざまな内容に適用可能で現在広く使われている「テキスト音声合成方式」とに大別されます。
 

1.録音編集方式

録音した音声を単語や文節などの単位に分けデータ保存し、それを組み合わせて合成音声をつくる方式 。実際に録音された内容をつなぎ合わせて使用する方法であるため、音声の自然性は高い一方で、読み上げる内容が限定的でない場合は追加の音声収録が必要となります。
 

2.テキスト音声合成方式

音素、音節などの単語より小さい単位でアクセントなどの規則を抽出し、制御パラメータを生成し合成音声をつくる方式。任意のテキストに対して合成音声の生成が可能です。さらにこの方式は、「規則合成方式」と「コーパスベース合成方式」に分けられます。
 

 (1)規則合成方式

あらかじめ設定したルールに基づいて音声波形を合成することで合成音声を生成する方式。主に1990年代より前に使われていた手法で、システムの構築は研究者の職人芸的なノウハウに依存しており、人間らしい表現性に乏しい欠点があります。

 (2)コーパスベース合成方式

コンピュータや人工知能の技術の進歩に伴い使われるようになってきた方式で、大量の音声録音データとそのテキストをデータベース化した「音声コーパス」を作り、それに基づき統計的な手法で合成音声を生成する手法。1980年代頃から応用され、90年代に急速に拡大し、今日広く使われる技術のベースとなりました。この方式はさらに、「波形接続型合成方式 」と「統計モデル型合成方式」に分けられます。
   ①波形接続型合成方式
あらかじめ録音された声を適切な単位に分割し、その断片を連結して合成する手法。肉声により近い音質にできる一方で、波形を各々接続していくため、接続部分で歪みが生じやすく音質の安定性が低いケースがあります。
   ②統計モデル型合成方式
事前処理として、音声コーパスから抽出した音響特徴量を機械学習を使って分析・モデル化し、それに基づきテキストの言語解析結果からその音声を予測し合成します。波形接続型合成方式に比べて少ない音声データでも安定した合成音声を生成できるため、近年この手法の利用が急速に進んでいます。また最近では、波形接続型合成方式と統計モデル型合成方式を組み合わせることによって双方のデメリットを最小限に抑えようとする「ハイブリッド方式」の開発も行われています。
 

統計モデル型合成方式の仕組み

録音されたデータから機械学習を使って音声波形をつくる統計モデル型には、その機械学習の代表的な種類として「HMM音声合成」と「DNN音声合成」とがあります。
 

HMM音声合成

HMM(隠れマルコフモデル)は時系列データの特徴パターンをモデル化する手法のひとつで、各時刻の確率分布がその直前の変数値によって決まるものです。 HMM音声合成は1999年に東京工業大学で発表されたもので、言語特徴量と音響特徴量の関係を決定木に基づくコンテキスト依存のHMMによって表現する手法です。コンテキストに関する質問を用いて二分決定木を構築するため,言語特徴量と音響特徴量の関係が人間にとって理解しやすい形で表現されます。

DNN音声合成

DNN(ディープニューラルネットワーク)は、脳の神経回路を模した数理的モデルであるニューラルネットワーク(NN)を多層構造化することでより複雑な処理に対応できるようにした技術です。 DNN音声合成は言語特徴量と音響特徴量の関係をDNNによって表現します。モデルパラメータから言語特徴量と音響特徴量の関係を読み取ることは難しい反面,決定木では表現することが困難な複雑な非線形変換関数によって言語特徴量と音響特徴量の関係を表現することが可能です。学習データ全体から単一のDNNを学習するため,学習データを効率良く利用することが可能で、近年さまざまな分野で研究開発や利用が進み、精度が向上しています。モデルの自由度が高いため、学習データ量を増やせばモデルの精度が上がる一方で、音質・安定性を高めるには一般的に大規模な学習データが必要です。またHMMより計算量が格段に大きいこと、また問題が見つかった時の調整が困難などの課題もあります。

coestation 
コエステーションは統計モデル型のHMM音声合成方式をベースに、研究開発を行う東芝独自の特許技術とノウハウによりさまざまな改良を加えることで、高い自然性と可制御性をリーズナブルな処理量で実現しています。モデルの可読性に優れているため、ピンポイントでの修正・調整などの保守が容易になっています。またターゲット話者の音声データでゼロからコエ(ある人の声の特徴を持つ音声合成用の辞書)を作成するのではなく、多くの人の音声から作成された「平均的なコエのモデル」をターゲット話者の音声データに「適応」させることで、その話者に似たコエを早く・容易に作成できる東芝独自の改良を加えた話者適応手法を利用しており、 少量の音声データからさまざまなコエを作成することができます。
ブログ一覧へ戻る

お気軽にお問い合わせください