NHKは2020年10月21日、人工知能(AI)を活用してこれまでより流暢で自然な発声を実現する新たな音声合成技術を開発したと発表した。開発は、NHKの組織内の研究機関である放送技術研究所が行った。

 従来の日本語の音声合成方式は「漢字仮名交じり文」をそのまま入力データにしていた。この場合、漢字に複数の読み方が存在することからAIがうまく学習できないという課題があった。今回開発した音声合成技術では、漢字仮名交じり文を基に「仮名文字」と「韻律記号(アクセントや間などの情報を示す記号)」を自動的に生成し、「系列変換モデル(原稿を音声に変換するニューラルネットワーク)」の入力データにした。これにより、効率的に大量のデータをAIに学習させ、合成音声の品質を向上させることに成功した。

 さらに仮名文字と韻律記号を簡単に編集できるユーザーインターフェースや、例えば「ニュース調」や「会話調」といった具合に口調を切り替えられる技術も開発。様々な番組の演出要件に対応できるようにした。

新たに開発した音声合成技術のイメージ
新たに開発した音声合成技術のイメージ
(出所:NHK)
[画像のクリックで拡大表示]

 今回の研究成果は、2020年10月17日に「BS1」で放送した番組で使用した。NHKは今後も、より自然で使いやすい音声合成を実現する研究を進めるとしている。