日常的にPixelの音声文字起こし機能を活用し、tl;dvなどさまざまな文字起こしツールを試行錯誤している筆者が、新たな文字起こしデバイスに出会った。
中国のメーカーviaim(ヴィエイム)が手掛ける、文字起こし機能付きの完全ワイヤレスイヤフォン「RecDot」だ。録音と文字起こしを日常的に行う記者として、このハードウェアとAIの融合がどこまで既存ワークフローを変えられるのか、実力を検証してみた。
RecDotの価格は3万4800円(税込み)。5月20日よりMakuakeでの先行販売を開始しており、蔦屋家電+(二子玉川)でも実機展示されている。Makuakeでのクラウドファンディング終了後は、国内ECプラットフォームおよび一部の家電量販店を通じて正式販売を行う。
●イヤフォンはノイズキャンセリングにも対応 装着感には課題も
|
|
外見はよくある完全ワイヤレスイヤフォンながら、AI文字起こし機能を内蔵している。黒いボディーに赤いメッシュがアクセントの洗練されたデザインだが、その真価は見た目ではない。
このデバイスが興味深いのは、「イヤフォン」という形態をしながら、実質的には高機能なオーディオキャプチャー、文字起こしシステムである点だ。
まずはイヤフォンとしての性能評価。音質については特筆すべき点はなく、一般的な再生対応のBluetoothイヤフォンと同等レベルと感じる。ハイレゾ再生対応をうたっているが、実質的に生かせるのはLHDCという日本ではマイナーなBluetoothコーデックに対応している端末のみだ。標準的な音質にはなるが、一般的なSBCおよびAACコーデックもサポートしている。
アプリでサウンドエフェクトを調整できるが、極端な調整になりがちで、フラットな音響特性を好む私にはやや合わなかった。ノイズキャンセリング機能はマイナス48dBで、あまり大きな音のしないオフィス環境ではかなり効果的だった。
イヤフォン片側の重量は4.8g、充電ケースは52gと軽量なのは好印象だ。ケースのサイズも60×60×29.5mmとコンパクトで携帯性は良好だった。
|
|
最大の課題は装着感の安定性だ。インナーイヤー型でフィットするものの、使用中に数回落としてしまった。長時間装着すると、少しずつ耳から押し出される感覚があり、特に歩行中は不安定になりがちだった。
バッテリー持続時間は公称値でイヤフォン単体での音楽再生時で9時間(通話は6時間)、ケース込みで36時間。長時間録音・文字起こしすることを考えると、この程度は必要だろう。録音機能を使用すると通常よりも消費電力が高いと思われる。
●文字起こし機能はPixelと遜色ないレベル
本製品の目玉はやはり文字起こし機能だ。私が日常的に使うPixelの音声文字起こしやオートメモなどのツールと比較しながら解説しよう。
日本語認識精度については、高負荷環境でない限り9割以上の認識精度があり、Pixelの文字起こしと遜色ないレベルだと感じた。企業名などの固有名詞もある程度認識できる点は評価できる。さらに、話者識別にも対応しており、複数の発言者を分類して表示できるため、読みやすい文字起こしが作られる。
|
|
録音の開始はアプリを立ち上げて「通話録音」「オーディオ/ビデオ録音」「現場録音」の3種類から選択する必要がある。通話録音は自分の周囲の音声も拾い、オーディオ/ビデオ録音はスマホの音声だけを拾う。現場録音はオフライン会議などで録音するもので、イヤフォンをケースに入れたまま置いておけば録音できる。イヤフォン本体またはケースのボタンからワンタッチで録音を開始できる。
強みはBluetoothオーディオとして受信した音声も文字起こしできることだ。Zoom、WebEX、YouTubeなどプラットフォームを問わず、どんな音声でもシームレスに記録できる。メーカーによれば、この仕組みは「イヤフォンがスマートフォンのオーディオ出力デバイスとして動作する際、再生中の音声をキャプチャーし、アプリ側へ転送する」ことで実現しているという。
リアルタイム処理の点では、若干の遅延はあるがPixelの音声文字起こしと同等の速度感だった。高精度な文字起こしツールはバッチ処理が多いが、一般的な会話速度ならRecDotの文字起こし速度と精度のバランスは悪くない。例えばスマホでオンライン会見をみながら録音しているとき、発言した直後に字幕を表示することができる。発言の流れを少し振り返りたいというときに便利だ。
●スマホ+イヤフォンだけで完結する録音環境
文字起こしツールの真価は、ワークフローへの統合のしやすさにある。RecDotのエコシステムは、既存の文字起こしツールと比較して、どう位置付けられるだろうか。
強みは「スマホとイヤフォンだけでオンラインにもオフラインにも対応できる」点だ。例えばスマホでオンライン配信を聞きながらその内容を録音して、文字起こしまですることができる。さらにはイヤフォンでの録音なので、通話やオンラインミーティングにも対応できる。
オンラインにも対応できる上に、PCを持ち出さなくてもいい点は特に価値を感じる。現地取材をしながら、同時にスマホ+RecDotで別のオンライン会見を録音・文字起こしする、というマルチタスクを実現できた。これまでは取材優先度を決めるかしかできなかった作業に、新しい選択肢が生まれたことになる。
また、viaimアプリはスマホ版だけでなくWindows版アプリもあるため、PCでの活用もスムーズだ。PC環境向けには別売りの「NoteKit」という録音デバイスも販売されているが、スマホで録音した内容もクラウド経由で同期される。文字起こしの結果をタイムスタンプ付きで表示し、テキスト検索から該当音声部分に直接ジャンプできるため、PCでの原稿作成時に録音内容を参照する流れもスムーズだった。
料金はサブスクリプションモデルを採用しており、月額無料のBasicプランは月600分までの制限があり、1800分まで録音できるProプラン(月額1500円か年額1万2000円)と、録音時間無形限のUltraプラン(月額3000円か年額2万2000円)も選択肢となる。
UIの完成度については、一部に中国語表示が残るなど、完全なローカライズには至っていない。これはソフトウェアアップデートで改善されるだろうが、現状ではビジネス用途での完成度としては若干気になる点だ。
●技術的課題と実用上の制約 オフラインでの録音機能も欲しい
文字起こしツールをよく使う立場として気になる技術的課題をいくつか挙げておく。
メモリ容量の制限は気になる制約だ。イヤフォン内のストレージには限りがあり、容量を超過するとスマホにダウンロードして空ける必要がある。長時間のミーティングでは注意が必要になる。メーカーによれば片側イヤフォンでの通話録音は約139分、現場録音では約79分が限度とのこと。
操作系にも改善の余地がある。イヤフォンの長押しで録音開始・終了ができるが、装着調整時に誤って録音を停止してしまった経験がある。重要な取材や会見では、誤操作のリスクは最小限に抑えたい。
また、気になるのはバックエンドインフラ。文字起こしはアプリから音声をクラウドサーバに渡して処理する関係上、ネットワーク接続が必須となる。クラウドサーバの所在地については、5月末に日本国内サーバに移行予定としている。
メーカーによれば、オフラインでの文字起こし機能の提供を計画しているというが、リリース時期は未定だ。
音声録音のプライバシーやDRM回避の可能性も倫理的課題として認識しておくべきだろう。Bluetoothオーディオの録音は、版権保護コンテンツの録音にも使えてしまう。汎用(はんよう)性が高いだけにエンドユーザーの倫理観に委ねられる部分が大きい。法令・利用規約に従った正当な用途を推奨したい。
●高価だが手軽に高品質な文字起こしができる
RecDotは、録音・文字起こし・要約という一連の作業をイヤフォンだけで完結させる“ポケットサイズのAIレコーダー”だ。スマートフォン経由でオンライン・オフライン両方の音声を即座にテキスト化できるため、取材と会議を並行してこなす現場では大幅な時間短縮につながる。
アプリを問わず録音でき、話者識別や要約まで自動化され、さらにクラウド同期によってPCでの録音の活用もシームレスだ。一方で、装着の安定性にやや不安が残ること、ネットワーク接続が必須でオフライン処理に対応しないこと、イヤフォンのタッチ操作で誤って録音を停止しやすい点など、いくつか改善の余地も見える。
3万4800円という価格は安価ではないが、「録る」「起こす」「探す」に費やす手間を丸ごと省けると考えれば、文字起こしを日常的に使うユーザーには十分に投資価値がある。
特に複数の会議を縦横無尽にこなすビジネスパーソン、出先で原稿作成まで完結させたいモバイルワーカー、そして専門知識なしで高精度な文字起こしワークフローを求める人にとっては、時間を“買う”ための有力な選択肢になるだろう。
(製品協力:HONG KONG FUTURE INTELLIGENT TECHNOLOGY)
|
|
|
|
Copyright(C) 2025 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。