Siriを超える音声認識の世界

0

2017年10月02日 16:42  ニューズウィーク日本版

  • チェックする
  • つぶやく
  • 日記を書く

ニューズウィーク日本版

<着実に進化する音声認識技術が私たちの生活習慣や思考回路を一変させる>


今の子供が大人になる頃には、キーボードはそろばんのような時代遅れの道具になっているだろう。そのうちに、博物館でしか見たことがないと言われるかもしれない。


私は98年にある記事で、「音声認識技術が世界を変えようとしている」と書いた。ただし、当時の最先端のソフトに「2つのターンテーブルと1つのマイクロホン」と話し掛けたら、「2つのトーン(破れた)レーベルと1つのアイスクリームコーン」と認識したのだが。


もちろん、近年の音声認識技術はもっと優秀だ。マイクロソフト、グーグル、アマゾン・ドットコム、IBM、中国の百度(バイドゥ)などのIT大手やスタートアップが、微妙な言葉遣いまで理解して論理的に返答できる人工知能(AI)システムの開発を進めている。


マイクロソフトは昨年10月、自社の音声認識システムが「人間と同じレベル」になったと発表した。単語誤り率が人間(プロの口述筆記者)と同等の5.9%まで低下したのだ。


グーグルの音声認識サービスは、世界中の言語を次々に習得している。今年8月にもアゼルバイジャン語やジャワ語など30言語が追加され、現在119言語をサポートしている。


IBMのAIプラットフォーム「ワトソン」が、ボブ・ディランと会話をするCMを見たことがある人もいるだろう。ディランの言葉を機械が理解できるなんて画期的ではないか。


急成長中の音声認識ビジネスに、多くの企業が照準を合わせている。アマゾンのAIアシスタント「アレクサ」を搭載した音声認識スピーカー「アマゾン・エコー」が普及すれば、話し掛けるだけで買い物できるのが当たり前になる。


グーグルは8月に、小売り最大手ウォルマートとのネット通販事業の提携を発表。こちらも、音声認識スピーカー「グーグル・ホーム」に話し掛けるだけで注文できるようになる。


ネット通販では、チャットボット(自動会話プログラム)のアプリが注目を集めている。現在は大半が文字入力のテキストでやりとりするが、音声入力も着実に増えている。


調査会社コムスコアによると、20年までにインターネット検索の半分が音声入力に変わるという。既に私たちの買い物の大半は、検索から始まっている。


11年にアップルの音声アシスタント「Siri(シリ)」が登場して以来、携帯電話やアプリが音声を理解するのは当然になった。音声認識技術の研究者による数十年の試行錯誤を思えば、隔世の感がある。


IBMがシアトル万国博覧会で同社初の音声認識システム「シューボックス」を披露したのは1962年。音声の指示で計算を行い、答えを印刷する。認識できる単語は16個で、0〜9の数字と「プラス」「マイナス」など計算に関する指示のみだった。


70年代に入ると米国防総省傘下の防衛先端技術研究計画局(DARPA)が大規模な音声認識システムの開発に取り組み、約1000語を理解できるようになった。21世紀の現アメリカ大統領と似たような語彙力だが、実用化には程遠かった。


音声認識技術で知られるドラゴンシステムズは、90年に最初の消費者向け口述筆記ソフトを発売したが、値段は9000ドル。使うほどに不満がたまる代物だった。98年に私がIBMの研究チームに確認したときも、音声認識技術は日常生活で使うにはまだ不十分だった。


創造のプロセスが変わる


技術が大きく飛躍したのは07年以降だ。グーグルやアマゾンが運営する巨大なデータセンターが、携帯端末やクラウドサービスで交わされる膨大な量の会話を使って言語を「学習」できるようになった。


私たちが話し掛けるたびに、アレクサやワトソンは少しずつ人間の話し方を覚える。いずれ標準的な人間よりシステムのほうが、人間の話を理解できる日も来るだろう。


そこまで賢くなれば、世の中は劇的に変わる。買い物の習慣どころか、思考回路さえ変わるかもしれない。


私たちは数十年をかけて、キーボードとマウスを使って考えるようになった。ドラゴンシステムズのジョエル・グールドは98年に、「口(マウス)を使って考える」時代になれば「創造のプロセスが変わる」と予言している。


ある意味で、脳が本来の機能に立ち返るとも言える。人間は数千年の間、ペンもタイプライターもワープロも使わずに物事を考え、創造した。叙事詩『イリアス』を紡いだホメロスにキーボードは必要なかった。


音声認識が普及すれば、読み書きができなくても人並みの生活を送れるようになる。グーグルの音声認識サービスが途上国の言語に次々と対応しているのは、これまで手の届かなかった市場を見据えているからだ。


読み書きができないか、インターネットが使えない成人は全世界で7億8100万人。彼らは安価な携帯電話に話し掛けるだけで、公共サービスに登録し、銀行口座を開設して、猫の動画を見られるようになる。


さて、私はアレクサに「2つのターンテーブルと1つのマイクロホンって何のこと?」と質問した。答えは――「さあ、分かりません」。


ちなみに、正解はベックの90年代のヒット曲の歌詞。アイスクリームと間違えなかったことは褒めておこう。


【お知らせ】ニューズウィーク日本版メルマガリニューアル! ご登録(無料)はこちらから=>>



[2017.10. 3号掲載]


ケビン・メイニー(本誌テクノロジーコラム二スト)


    前日のランキングへ

    ニュース設定