iPhone 16とPixel 9で「文字起こし」の精度を比較 オンライン会議と騒がしいファミレスで試した結果

0

2025年03月26日 12:51  ITmedia Mobile

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia Mobile

iPhone 16とPixel 9で文字起こしの精度を比較した

 iPhoneで録音した音声を文字に起こしてくれる、いわゆる文字起こしの機能。録音したものをいったん保存した後、「Speechy」というアプリにデータを移行し、音声をテキストに変換する作業を行う方法はあるが、1つのアプリで完結できないゆえに面倒だ。


【その他の画像】


 文字起こしの機能では、Google Pixelが先行しているが、iPhoneもようやく追随した。Appleが開発者向けに配信しているβ版の「iOS 18.4」では、「ボイスメモ」という標準搭載アプリで、録音から文字起こしまでを完結できるようになった。それも日本語でだ。


 正式なアップデートは、Apple独自開発の生成AIサービス「Apple Intelligence」が日本語対応を果たす4月だが、それを待たずにβ版のiOS 18.4を手元のiPhone 16にインストールし、Pixel 9と文字起こしの精度を比較する。


●オンライン取材で精度を確認 どちらも全体の内容は把握できる


 まず、オンライン取材時に両モデルをPCのスピーカーのそばに置き、文字起こしの精度を確認した。テスト環境は、お互いが静かな場所にいる状態で、周囲に他の人の会話やBGM、車の音などがなく、会話が阻害されないように配慮した。


 実際に会話の内容を丸ごと録音してみると、「iPhoneがテーマの会話」であることはどちらのモデルも正しく認識できた。しかし、「iPhone 13 mini」「iPhone 12 mini」などの固有名詞については、Pixel 9の方がほぼ正確に文字起こしできていた。


 会話が進むにつれて、iPhone 16の文字起こしには誤字や脱字が目立つようになった。例えば、「iPhone SE(第2世代)はどれくらいの期間、売れていたのか?」という質問に対する回答が、「正確なところは〜」とやや曖昧なコメントから始まっていることは分かる。しかし、iPhone 16では「正確」という言葉が「性格」と誤変換されてしまったのに対し、Pixel 9では「正確」と正しく表記されていた。


 ただ、全体を通して見たときに、本来の内容から懸け離れた結果だとはいえない。少なくとも、音声を聞きながら内容を見返していけば、所々に正しくない表記があっても、全体の内容を把握することはどちらも可能だ。


●あえて騒がしい環境で検証 どちらも静かな場所より厳しい結果に


 では、オンラインではなく、現地でPCのスピーカーを介さずにマンツーマンで会話した内容は、どちらが正確に文字起こしするのだろうか? こちらも気になるので都内近郊のファミリーレストランへ出向いて確認した。前提として、客足が増える19〜21時台の時間帯に入店し、かなり騒がしい環境で試した。


 会話の主な内容は記事の企画だ。結論からいえば、ほぼ全ての会話を文字起こしできたのはPixel 9だ。先ほどのオンライン環境とは打って変わって、iPhone 16は全体の内容すら把握しづらく、会話のほとんどの内容を文字起こしできていない。


 ただ、Pixel 9もiPhone 16ほどではないものの、ところどころで内容が抜けてしまうことがあった。「次に企画している記事に今月(2025年3月)に発売された端末を含めるかどうか」という議題では、発言したはずの「Xiaomi 15 Ultra」が文字起こしの結果に含まれていない。


 Pixel 9の文字起こしにはXiaomi 15 Ultraと正しく記載されていなかったものの、「15Uロト」という珍しい変換結果が残っていた。一方、iPhone 16では録音自体はできているものの、Xiaomi 15 Ultraという製品名はもちろん、そもそも「どの端末の情報を記事に反映するか」という議題そのものが抜け落ちていた。そのため、文字起こしの結果だけでは会話の内容を正しく把握することができなかった。


 また、Xiaomiというメーカー名を認識しづらいのか、Pixel 9では片仮名表記の「シャオミ」となる。これ自体は問題ないが、原稿では片仮名ではなくアルファベットで表記しなければならないルールがある筆者にとっては、後から全てアルファベット表記に統一する手間が発生する(とはいえ、会話の内容を把握する上では問題ない)。


 せっかくの検証なので、モバイル業界の専門用語だけでなく、芸能人や著名人の文字起こし精度はどうかも確認した。試しに、大谷翔平さん、木村拓哉さん、香取慎吾さん……と発言してみたところ、今度はiPhone 16が正確に文字起こしできたが、Pixel 9ではなぜか木村拓哉さんだけが省かれた。


 モバイル業界の話題では、ソフトバンクの宮川潤一社長、KDDIの高橋誠社長の名前も発言してみたところ、iPhone 16は高橋誠社長を拾いきれず、Pixel 9では高橋誠社長を文字起こしできたものの、宮川潤一社長の漢字を「潤」ではなく「純」と誤った。


●iPhoneとPixelの共通点は? どちらが扱いやすい?


 両モデルの共通点として、どちらもリアルタイムでの文字起こしに対応している点が挙げられる。再生中の部分がハイライト表示されるため、録音した内容を後から確認しやすく、必要な情報を素早く見つけることができる。録音した音声や文字起こしのデータを他の人と共有できる点も共通点だ。


 一方、録音した音声と文字起こしのデータをクラウドにアップロードし、大画面のPCやタブレットからでも確認しやすいのはPixelだ。事前設定は必要だが、録音を終えた後、「recorder.google.com」に同期されるため、他のクラウドストレージサービスや外部メモリに頼らずに済む。これを知っておくととても便利だ。


 重要な会見や会議、商談などの内容を録音したにもかかわらず、聞き返さない人はほとんどいないだろう。後から振り返るという点では、Pixelの方が便利であり、何より文字起こしの精度においても、一歩どころか二歩、三歩先を行っている。



    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定