米Microsoftは現地時間2016年10月18日、音声認識における重要な成果を達成したと発表した。会話における言葉を人間並みに認識するシステムの構築に成功したという。

 同社の人工知能(AI)研究部門に所属する研究者とエンジニアのチームが10月17日に発表した論文によると、同チームが開発した音声認識システムは単語誤り率(WER)が5.9%となり、プロのトランスクリプショニスト(口述筆記者)と同等またはそれより少ない。

 同社は9月に6.3%のWERを記録したと報告していたが、今回さらに精度を上げた。Microsoft最高音声科学責任者のXuedong Huang氏は「人間のレベルに達した。これは歴史的な快挙だ」と述べている。

 高度な音声認識技術によって、消費者および企業向けプロダクトが大幅に進化することが期待される。例えば「Xbox」のような消費者向け娯楽デバイス、音声を文字に即時変換するアクセシビリティーツール、「Cortana」をはじめとするデジタルアシスタントなどに生かされることが考えられる。

 Microsoftの音声認識システムは、最新のニューラルネットワーク技術を利用したニューラル言語モデルを採用している。認識能力の学習には、自社開発したオープンソースのディープラーニング向けシステム「Computational Network Toolkit(CNTK)」などを使用した。

 今後は、パーティー会場など周囲が騒がしい場所や複数の人が会話している状況など実生活の様々な環境や、声のタイプ、年齢、アクセントなどに幅広く対応できるよう技術強化に取り組むとしている。

 長期的には、人間が発する言葉を音声信号で認識するだけでなく、言葉の意味(会話の内容)も理解するレベルを目指すとし、音声および会話研究グループ責任者のGeoffrey Zweig氏は「次の段階は、認識から理解へ進むこと」と述べた。

[発表資料へ]