村田製作所は、話し手の声だけを抽出するマスク装着型の音声入力デバイス「mask voice clip」を10月14日に開幕したテクノロジーイベント「CEATEC 2025」(幕張メッセ)で展示している。会場では、話し声が飛び交う環境下でも、デバイスが話者の声のみを正確に捉える様子を確認できる。
【画像】本当に「話し手の声だけを入力」できるのか? 文字起こしデモの様子はこちら(計4枚)
mask voice clipは、マスクの内側にクリップで装着する小型デバイスだ。発話時に生じるマスク表面の微細な振動を圧電フィルムセンサーで直接検出する構造により、話者の声だけを抽出する。工場や医療現場などの騒音環境下や、複数の話者がいる場所での活用を見込む。
各ブースのアナウンスや来場者の声が入り混ざるCEATECの会場内で、担当者に装着してもらった。比較用に設置された通常のマイクによる文字起こしには周囲の音声が混入していたが、mask voice clipではほとんど影響を受けていない。デモ用に作られた試作品ながら、効果のほどを確認できる展示となっていた。
なぜ、高精度な音声入力デバイスの開発に取り組んでいるのか。背景にあるのは、生成AI技術の進歩だ。「音声から意図をくみ取り、内容を補完して議事録化することが可能になった。いずれも、以前なら実現できなかったことだ」と担当者は話す。「タップ入力に続く次のインタフェースは音声入力だと考えている」
|
|
目指すのは、メールやメモの作成を「タイピングいらず」「フリック入力いらず」で行える未来だ。ささやき声や口パクでも入力できる「サイレントスピーチ」対応の音声インタフェースを見据えているという。「公共の場でAlexaやSiriに話しかけるのはためらわれるが、ひそひそ声で済むなら使える場面は広がる。“サイレント”は、次に来るデバイスの基盤になるのではないか」
現時点で公表しているのは「マスク装着型」のみ。他の形状については「他にもやっていることはある」というが、具体的な内容は明かしていない。「ハードウェアだけでなく、どのようなアプリと接続するかといったインタフェース設計も重要になる」と担当者は説明した。
|
|
|
|
Copyright(C) 2025 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。