coestationcoestationcoestation

ブログ

音声合成とは?歴史から学ぶ音声合成を活用するメリットと今後

  • このエントリーをはてなブックマークに追加
何か調べものをしたくなった時、まずパソコンやスマホを使って調べるという人は多いのではないでしょうか。さらにそれを「声」を使って行うことがある人も、年々増えてきていると予想されます。「明日の天気は?」「50ドルは何円?」などとパソコンやスマホに聞いてみると、「明日の(地名)の天気は・・」「50ドルは・・」などと答えてくるだけでなく、「今日は疲れたね」などと語りかけると、「お疲れさまです。どこかに行きたいですね」と人間さながらに気遣ってくれたりもします。そこには、音声認識や自然言語処理などと並んで、音声合成という技術が使われており、人間のような「声」で話す部分を担っています。

 

音声合成とは

音声合成とは、コンピュータなどを使い人間の声を真似た音声を人工的に生成するもので、その技術を使えば、任意の文章(テキスト)を音声に変換してさまざまなことを発話させることができます。公共放送のアナウンスやカーナビなどで何十年も前から使われてきた技術ですが、特に最近ではIoTの流れで搭載される先のインタフェースが広がり、スマホやスマートスピーカーなどの音声アシスタント機能や動画のナレーションなど、その活用は私たちのとても身近なところにまで広がってきています。またAIのめざましい発展にともなって人間の声に近いより自然な発話が可能となり、単調な機械音の印象の強かった音声合成はより自然なコミュニケーションツールへと進化し続けています。
 
 

音声合成ソフトのメリット・デメリット        

音声合成を実際に使うことのできるツールも、一般の人でも使える身近なものへとなってきています。そこで、音声合成ソフトを使うことのメリットとデメリットを確認していきましょう。
 

メリット

音声合成ソフトを使うことのメリットは、逆にそれの代わりに収録音声を使った場合のケースをイメージしてもらうと分かりやすいと思います。たとえば数十年前から音声合成技術が使われてきたカーナビでは、全国各地の交差点の名称というような詳細なレベルの情報をすべて音声で出力する必要があり、生身の人間であるナレーターがスタジオですべて収録していてはきりがなく、かかるコストも膨大になってしまいます。同じように、ゲームやスマートスピーカー、オーディオブックなど、膨大な種類の音声アウトプットに対応する必要があるものは時間とコストの観点から非常にメリットが大きいほか、途中でシナリオに修正や変更が入る可能性のあるナレーションなどでは、再度収録を行うなどの後戻りを防ぐことができ、コスト面はもちろんのことプロジェクトの進行や機動性などの面からも大きなメリットがあります。
 

デメリット

デメリットは、やはり生身の人間の喋りと比べると発音やイントネーションが不自然に聞こえる場合があるという点です。以前に比べるとその度合いは大幅に低減されているものの、人間の喋りを完璧に代替できるというレベルにまではまだ至っていません。また合成音声は感情表現などが苦手というのが一般的です。一方で、コエステーションは最新の統計的学習に基づき、収録音声の音色や抑揚、リズムなどの特徴を高精度に再現し、怒り・悲しみ・喜びなどの細やかな感情表現の調整が可能となっているため、従来の音声合成技術と比べると幅広い表現が可能です。
 
 

音声合成ソフトの歴史

次に、この技術がいつどのような形で発明され、改良されてきたのかを見ていきましょう。
人間の声を真似た音声を人工的につくる試みは古くから始まっており、実際に母音や子音を発することができる機械は1700年代には生まれていました。その後コンピュータの誕生・発展とともに音声合成は飛躍的な進化を遂げていきます。1940年代に初めてコンピュータが誕生し、50年代には現在のようにコンピュータを使った初めての音声合成器が生まれました。
 

1960年代

アメリカの通信研究所である「ベル研究所」にて、浮動小数点数演算ハードウェアを搭載した「IBM 704」によって曲を歌わせることに成功しました。その時の曲「デイジー・ベル」は、「コンピュータによる初めての歌」として今も語り継がれています。
また、世界で初めての英語のtext-to-speechシステムが日本の電気試験所(現在:産業技術総合研究所))で開発されました。
 

1980年代

テレビCMが広告の傑作として今も語り継がれる1984年発売の初代Mac(マッキントッシュ)のOS(オペレーティングシステム)に音声合成エンジンを搭載。そのほかWindows, AmigaOSなどのOSでも音声合成が使えるようになりました。また音声合成を使った初めてのテレビゲームも発売されました。
 

1990年代後半~

車の位置情報をもとに目的地への道案内をするカーナビが普及し、その経路案内などの音声ガイダンスに音声合成システムが使われていたことにより、その技術が広く一般的に知られるきっかけとなりました。
 

2000年代

”初音ミク”に代表される歌声音声合成技術を使った製品が発売され、動画配信サービス”ニコニコ動画”やさまざまなメディアで取り上げられたことをきっかけに、一般的にも音声合成技術が広く知られるようになりました。
 

2020年現在

特定の人の声の特徴を学習し、それに似た合成音声で発話させる技術が進む中、身近な人から有名人まで多種多様な合成音声をデータベース化。「コエステーション」は、「スマートスピーカーの声を好きな芸能人の声にしたい」「孫の声で毎朝のニュースが聞きたい」など、ITによるコミュニケーションを顔の浮かぶあの人の声で聴きたいというニーズに応えるべく、サービスを広げています。

 

音声合成はより「声」らしく感じられるように

AIなどと並んで最新の技術であるイメージの強い音声合成ですが、大本(おおもと)をたどるとその歴史は古くから始まっていたことがわかります。コンピュータを使った音声合成については、コンピュータの発明からほどなくして使われるようになり、その発展とともに技術が磨かれてきました。さらにインターネットが私たちの生活の隅々にまで浸透し、その後AIの目覚ましい進化とともにその技術のレベルはまったく新しい局面を迎え、私たちがその「声」とコミュニケーションを取っていると感じるまでになりました。次回は、音声合成がどのような仕組みで動いているのか、そのいくつかの方式と各々の長所短所を見ながら解説していきたいと思います。
 


 
ブログ一覧へ戻る

お気軽にお問い合わせください