富士通がプロのナレーションに迫る高品質な音声合成を実現し、もうすぐ実用化するそうです。
株式会社富士通研究所はこのほど、人間の声に迫る、極めて自然な音声を合成できる、業界最高クラスの音声合成技術を開発しました。本技術による合成音声は、音声品質の評価方法であるCMOS評価において、プロのナレーションの品質に迫る高いスコアを達成しました。これにより、放送コンテンツや各種アナウンス、e-Learning教材用音声など、従来、ナレーターが担ってきた分野において、低コストな合成音声で代替することが可能になります。
富士通研究所の従来方式と新方式の音声合成を聞き比べてみようのページでサンプル音声が公開されていますが、聞き比べると明らかに新方式のほうが自然な発音で人間の話し言葉に近いのがわかります。
まだ具体的にどういう形でサービスが提供されるかは不明ですが、業務用だけでなく個人向けのアプリケーションとしても利用できるようになれば、パソコンが観るものから聴くものに使い方が広がりそうです。
例えば視覚障害者用の音声読み上げソフト。パソコンの操作手順を自然な音声で支持してくれたりWebページを読み上げてくれるようになれば、目の不自由な人でもコンピュータとインターネットを活用できる機会が増えます。
このてのソフトはホームページ・リーダー バージョン 3.04がありますが、開発が止まっているようでWindows Vista以降には対応する予定はないようです。富士通が新しい音声合成技術を使った読み上げソフトを低価格でリリースしてくれればいいですね。
Webページを読み上げてくれると、目が不自由でなくても便利です。特に長い説明が続くようなページは読むよりも聞くほうが内容が伝わりますから、Webサービスとして利用できるようになればパソコンがもっと便利になりそうです。
Windowsでテキストを読み上げてみる
Windows Vistaには「ナレーター」というソフトが標準装備されてますが、残念ながら日本語にはまったく対応していない盲腸のような機能ですので、フリーソフトを利用してテキストを読み上げてみます。
今回試したのは「棒読みちゃん」というフリーソフト。名前からして話し方が予想できますが、これでもけっこう使えます。ダウンロードはVectorから。
左の画像は「棒読みちゃん」にこのページのテキストを貼り付けたところです。
貼り付けたテキストは「音声合成」タブの下にある吹きだし+緑の三角アイコンをクリックで再生できるほか、吹きだし+赤丸アイコンで音声ファイルとして保存することができます。
先ほど貼り付けたこのページの音声をファイルにしたのが、Output.wavです。リンクをクリックすると拡張子.wavに関連付けられたプレイヤーで再生、右クリックすればダウンロードできます。
いかにも機械がしゃべってるイントネーションですが、じゅうぶん聞き取れますね。読み上げ速度や音程を少し下げるといいようです。
ついでにもう1つ、宮沢 賢治の「銀河鉄道の夜」の一部を音声ファイルにしてみました。
いろいろなテキストを貼り付けて遊んでみましたが、けっこう面白くて楽しめます。
冒頭に書いた富士通の音声技術の話に戻りますが、自然な話し言葉でテキストを読んでくれるようになれば、こうして小説をダウンロードして聴くというビジネスが出てくるかもしれません。iPodや携帯電話で小説を聴くことができれば、通勤時間などを利用して、いつでもどこでも本が「聴ける」ようになり、ラジオドラマのように物語を楽しめるかもしれません。
富士通は2009年度上期中の実用化を目指すというので、これからどんなサービスが生まれるか注目したいと思います。