カンペ見ても「カメラ目線」へ自動補正 動画のAI吹き替えツール「Captions」にPC版、実際に試してみた

1

2024年03月30日 11:21  ITmedia NEWS

  • 限定公開( 1 )

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia NEWS

写真

 2023年7月にiOSアプリ「Captions」を紹介した。動画をアップロードすると、指定した言語へ翻訳した字幕を付けてくれるだけでなく、なんとオリジナルの声質をまねて別言語でアフレコまでしてくれるというツールである。


【クリックで表示】AIが日本語を英語に翻訳し、そのまま自分の声で吹き替えてくれる「Captions」


 昨年紹介した段階ではまだPC向けアプリは一般公開されていなかったが、まだβ版ではあるものの、その後公開が始まっている。基本的にはクラウド上で処理するので、アプリは単なるコントローラーおよびI/Oインターフェスにすぎないが、実際にコンテンツに利用するためには、スマホアプリだけではハンドリングが良くない。特に編集をデスクトップアプリで行っている場合は、デスクトップ版があってこそ、利用しやすくなる。


 現在Captionsは、開発リソースをiOS版に注力している。というのも、コンテンツの主戦場をTikTok、Instagram、YouTubeに設定しているからだろう。他のプラットフォーム向けとしては、Web版、Mac版のβ版が公開されているほか、Android版が近日公開予定となっている。今回はMacOS版0.1.68のβ版で何がどこまでできるようになったのか、検証してみたい。


●テンプレートやオリジナルエフェクトが充実


 Web版とMacOS版は、機能的にはほぼ同じものを実装しているように見えるが、動作速度としてはMac版のほうがだいぶ早い。動作の安定性という面でもMac版のほうが優れており、現時点ではMac版を使うメリットは大きい。β版ゆえに動作テストは無料だが、結果をエクスポートする場合は月額9.99ドルもしくは年額89.99ドルを支払う必要がある。


 最初に動画をサーバへアップロードする必要があるが、現時点では動画ファイルのサイズが750MBまでに制限されている。またクラウド上で字幕や吹き替えの変換を行う場合は、最長5分までに制限されている。従ってショートコンテンツの完成品をアップして字幕を付けるというプロセスが想定される。


 またしゃべりの背景にBGMが入っていた場合、AIが音声を読み取れない場合があるので、音楽ミックス前の素材を放り込む必要がある。UIとしてはiOS版に近いが、一度字幕の編集画面に移動するとアップロード画面に戻る方法がないなど、デスクトップアプリとしてはまだまだ未完成の部分もある。


 アップロードした動画に対して、オリジナル言語と変換したい言語を選択、字幕のみを翻訳するのか、音声もオーバーダビングするかを選択する。ボタンを押すと、クラウド上で変換され、編集画面へ移る。


 編集画面といっても、動画編集ができる機能は実装されていない。現時点で可能なのは、字幕のデザインや出し方をテンプレートから選んだり、あるいは自分でオリジナルのテンプレートを作るという作業だ。


 筆者のしゃべりを英語に翻訳し、字幕を付けてみたが、いわゆる映画字幕のようなものではなく、しゃべりに合わせて飛び出すような、ポップなテンプレートが多い。確かに全てのしゃべりに逐一リンクしたエフェクトを人の手で付けていくのは現実的ではなく、AIならではだといえる。


 字幕が出るタイミングや、強調するワードなども全てAIが判断している。一端AIで処理させて、気に入らないところだけマニュアルで修正するというスタイルだ。言葉の区切りなどはテンプレートには含まれておらず、テンプレートはあくまでも文字の出方を決定するだけである。文章の誤訳などの修正も、ワード単位やフレーズ単位で可能だ。


 オリジナルのテンプレート制作は、文字のカラーやシャドウ、動きなどを選択して組み合わせるという作業だが、それほど細かい指定ができるわけでもない。基本的に、こうした文字の出方が気に入るかどうか、というところで使えるかどうかが別れるという事だろう。とはいえ、インフルエンサーなどは簡単に差別化できるものならなんでも取り入れる可能性はあるわけで、現時点では翻訳というより、そうしたテロップ入れニーズに支えられているという事だろう。


●カンペなどで外れた目線を「カメラ目線」に変更


 Captionsは、編集ツールというよりは、AI処理ツールというべき方向に特化しようとしている。字幕や吹き替え以外にできる処理として、「Eye Contact」というツールがある。パラメータは何もなく単にボタンを押すだけなのだが、これにより動画内の目線が外れている部分を、カメラ目線に変更してくれる。


 実際に試してみると、オリジナルと比べると目の色や大きさが若干違っているが、極力カメラ目線に変更しようとしているのが分かる。動き部分によっては、生成AIにありがちな不自然さが残る部分もあるが、短い動画であれば気が付かない程度のクオリティーにはなっている。


 以前ならカンペなどを見るために目線が外れているケースもあったが、昨今はスマートフォン撮影が増えたことで、カメラホールではなく自分が映っている姿を見てしまい、少し目線が外れているケースが多くなっている。こうした補正には役に立つだろう。


 もう1つのAI補正機能が、「Denoise Audio」だ。オーディオのノイズを抑えてくれる機能で、これもパラメータは何もない。AIが吹き替えた音声にはもともとノイズがないので、オリジナル音声を生かしたコンテンツに使うと言うことだろう。


 昨今こうしたAIによるノイズリダクションは編集ソフトにも組み込まれる傾向があり、Adobe Premiere Proでは「スピーチを強調」、BlackMagic Design DaVinci Resolveでは「Voice Isolation」として実装されている。


 実際にバックグラウンドにファンノイズがある音声を処理させてみたが、確かにノイズは軽減されているものの、若干のシュワシュワ感がある。これはイヤフォンのでの音声通話のノイズリダクションに近いレベルだ。Design DaVinci Resolveの「Voice Isolation」と比べると、その出来はかなり劣る。さらなる最適化が必要だろう。


●完璧ではないものの……


 タイトルとは違い、言葉のテロップ処理はなくてはならないというより、あったらよりベターという作業ではある。ただそれを演出効果としてオモシロおかしく使いたいというニーズは、日本においてはテレビの影響もあり、初期のYouTube動画でも積極的に使われてきた手法である。


 しかしこれを手動で行うには大変な労力がかかることから、割に合わない作業とされてきた。これがAIを使って楽ができるのであれば、歓迎されるだろう。


 ただ現状のCaptionsは、テロップの区切りや改行位置などはAI任せで、それが日本語の切れ目として正しくないケースもかなり散見される。手動で全部やるよりはマシだが、思ったような効果にするのであれば、かなり修正が必要になる。


 このあたりのセンスは国ごとに違いがあり、各原語への最適化はかなり大変な作業になるだろう。幸いテンプレートの編集や自分で効果を作る事はできるので、各言語のネイティブスピーカーがそれぞれに、慣習として馴染むテンプレートの作成と、それの共有機能は欠かせないところかと思われる。


 編集ソフトも多くはAIによる文字起こしに対応し、一般的な字幕を入れるところまではできるようになった。Captionsもデスクトップ版では編集機能を搭載し、オールインワン化を目指すのかと思っていたのだが、どうもそういう方向にはないようで、あくまでもテロップや翻訳を含むAIプラットフォーム化していくようだ。


 今後Captionsのような特殊ツールが生き残る道は、各言語の翻訳と、テロップエフェクトの実用度にかかってくる。今は編集後の完パケを食わせて処理というスタイルだが、この機能がAPI化して編集ツールからアクセスできるようになると、また違った展開になるだろう。


    ランキングIT・インターネット

    アクセス数ランキング

    一覧へ

    話題数ランキング

    一覧へ

    前日のランキングへ

    ニュース設定