ドイツの大学が人間を超える音声認識AIを開発! エラー率5.0%を達成

0

2020年10月22日 07:01  Techable

  • チェックする
  • つぶやく
  • 日記を書く

Techable

写真
発話には、どもりや間、「う〜ん」といったためらいが入る。単語の発音が不明瞭なこともよくあり、私たちをこうしたものを無意識に補正しながら音声認識している。

発話を一言一句聞き取って文字起こしするのは意外にむつかしく、エラーがつきものだ。人間でもむつかしい音声認識はAIにとってはさらに困難。GoogleやAppleなんかの音声認識AIの精度は向上しているが、多少のエラーは大目に見ながら音声入力しているだろう。

こうしたなか、カールスルーエ工科大学(KIT)の研究者らは、人間よりも優れたパフォーマンスを発揮する音声認識AIを開発している。「講義ライブ翻訳機」に実装KITの研究者とKIT発のスタートアップ「KITES」が開発したシステムは、人間よりもうまく音声認識し、ほかのシステムよりも遅延が少ないという。

研究者は以前、大学の講義をドイツ語や英語から、留学生の母国語にライブ翻訳するシステムを開発。この「講義ライブ翻訳機」は、2012年からKITで使用されているようだ。

音声認識は、このシステムの核になるもの。認識精度を高め遅延を短縮してきた。現在このシステムはエラー率が5.0%に達し、人間のエラー率約5.5%を上回っている。遅延を1秒に短縮講義のライブ翻訳では、学生が講義についていくために翻訳速度も重要になる。同システムでは遅延を1秒に短縮することに成功。これは、高精度の音声認識システムのなかで最小だ。

なお、エラー率と遅延はNISTが定義し、AI研究で国際的に利用される「switchboard-benchmark」を使用して計測したとのこと。

音声認識はライブ翻訳のみならず、音声入力や対話AIなどにも利用される基幹技術。高精度で低遅延の同システムはさまざまな場面で応用され、パフォーマンス向上に貢献してくれそうだ。

参照元:AI Outperforms Humans in Speech Recognition/ KIT

    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定