アドビとは異なるアプローチ 動画編集にどうAIを使うか、「DaVinci Resolve 20」の新機能を探る

0

2025年04月25日 12:51  ITmedia NEWS

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia NEWS

写真

 4月5日から9日まで、米国ラスベガスにて毎年恒例のNAB Showが開催された。数多くの製品やソリューションが公開されたが、プロ機の世界では発表後すぐに販売が開始される例は少ない。まずはNABで反応を見てさらに方向性を調整したのち、年内に発売といった流れが通常である。


【画像を見る】動画編集ソフト「DaVinci Resolve」の最新版に加わった新機能を見る(全8枚)


 Blackmagic Designも多くの新製品を発表したが、メジャーアップデートの「DaVinci Resolve 20」は即日β1が公開され、すぐに試すことができるようになっている。NAB発表製品で今すぐ触れる、数少ない製品の一つだ。


 例年だと今後β版が2カ月ぐらいかけて6回から7回ほど出され、その後正式バージョンがリリースされるというスケジュールになる。


 今回のバージョン20では100種類以上の新機能が搭載されたが、その中でAI機能は10種類以上にのぼる。プレスリリースから拾っていくと、以下のような機能が追加されたようだ。


・AI IntelliScriptでユーザーの脚本に基づくタイムラインを作成。


・AI会話マッチャーでクリップの音色、レベル、残響を一致。


・AI音楽エディターで音楽を任意の長さに自動的に編集。


・AIアニメート字幕で話し言葉をハイライトおよびアニメート。


・AIマルチカムSmartSwitchでアングル切り替えを自動的に実行。


・AIボイス変換。内蔵モデルとユーザー学習モデルを搭載。


・AI SuperScaleが3倍および4倍のアップスケーリングに対応。


・AI Magic Maskのバージョン2。ペイントブラシに対応。


・AI ResolveFX深度マップのバージョン2。


・AI IntelliCutで無音部分を削除。


・AI IntelliCutで話者ごとの会話音声をチェッカーボード化。


・AI IntelliCutで文字起こしによる話者情報を使用してADRキューを生成。


・AIオーディオアシスタントで最終ミックスを自動生成。


・AI音楽ビート検出でビートの表示とビートへのスナップが可能。


 実際に試してみると、うまく動くものもあればそうでないものもある。まだ使い方の詳しい情報が出ていないので、今みんな探り探り使っているところだと思うが、今回はこれらのAIツールの意義と、編集という行為におけるAIの位置付けについて考えてみたい。


●AIによるテキストと音声処理


 上記の機能を整理してみると、その軸は「テキストのAI処理」と「音声のAI処理」による組み合わせということになるだろう。


 例えば今回の目玉機能としてトップで紹介されている「AI IntelliScript」は、ユーザーが事前に作成した脚本をインポートすることで、その台本通りにしゃべっている音声をタイムライン上に切り出して並べてくれる機能だ。複数のテイクがある場合には、トラックを上に積み重ねて並べてくれるのだという。


 これは要するに、テキストと音声をマッチングさせるという処理だ。事前に中間処理として、収録クリップはAIによる文字起こしを行う必要がある。その文字情報とインポートした台本を照らし合わせて動画を切り出すという、複合的な作業になる。あいにく筆者の環境ではうまく動かず、もしかしたらまだ日本語対応していない可能性もあるが、これはβバージョンを積み上げていくうちにうまく動くようになるだろう。


 編集という行為…というか映像制作においては、台本はあくまでもガイドであり、最終的には撮れ高で判断していく。撮影現場ではアドリブも起こるわけで、そうしたものをうまく拾って物語を組み立てていくのが編集という仕事である。


 AI IntelliScriptが提供する機能は、これですぐ完パケになるというようなものではなく、あくまでも素材整理のために使用されるという事になるだろう。これまではこうした整理も大変だった。なぜならば、撮影・収録は、台本の順番通りに頭から行われるわけではないからである。


 バラバラのタイミングで撮影されてきた素材を台本通りの順番で並び替えるだけで大変な手間がかかったわけだが、それがAIによって整理されることになる。


 この機能が手元で動いていないので詳細が分からないのだが、台本整理で引っ掛からなかったカットも別にまとめられるといいだろう。そうした台本外のカットの中にダイヤモンドが隠れている場合が往々にしてあるからだ。場合によってはそのカットを生かすために、台本やシナリオを変更することもある。


 一方AI機能ではないが、カットページに「テレプロンプター」という機能が搭載された。これは画面上に台本などのテキストを表示させて、自動スクロールに合わせて喋りを収録するという機能だ。


 こうした機能も、AIが活用できる余地がある。現時点では、指定されたタイムラインの範囲内に収まるように、台本のスクロールスピードが自動的に調整されるだけである。しかしAIが集音された音声を聞き取って、それがプロンプタの文章のどの部分かを判断し、自動的にスクロールスピードを調整するべきだ。実際に人間が操作するプロンプタというのは、そうした喋り手と操演者のあうんの呼吸で行われている。


 音声とテキストの関係としては、「AIアニメート字幕」がある。これはDaVinci Resolveのテキスト書き起こし機能による字幕トラックに、「Word Highlight」というエフェクトを追加することで実現する。


 現在は日本語対応がまだ完全ではないせいか、まだちゃんと言葉を追うことができていないが、喋っている言葉のタイミングに合わせて字幕上の文字がハイライトされていくという効果である。これなどもテキストと音声処理を組み合わせた機能だ。


 どこにニーズがあるのかよく分からない機能ではあるが、YouTubeあたりだろうか。あるいは他言語を教える教育動画などには効果が高いかもしれない。手動で設定するのはとんでもなく面倒だが、自動でやってくれるならどこかで使いたい機能である。


●AIによる音声処理


 音声のAI処理も、バージョン20の1つの目玉となっている。


 「AIオーディオアシスタント」は、カットページ、エディットページ、フェアライトページで使える機能だ。例えば喋り動画を整音する場合、これまではオーディオトラックを選んで「AI Voice Isolation」や「AI Dialogue Leveler」を設定する必要があった。また音楽をBGMとして加えた場合は、耳で聞いて音楽レベルを調整する必要があった。


 一方「AIオーディオアシスタント」は、これらの処理を全部まとめて自動でやってくれる。音楽レベルのアップダウン(ダッキング)も、判断できる部分はやってくれるようだ。また公開先のレギュレーションに合わせたマスタリング機能もある。


 タイムライン全体を処理させることになるので、まあまあ時間がかかるのだが、全域を自分で再生しながら調整していくより早い。また喋りのトラックには「Stereo Fixer」や「De-Esser」などのエフェクトも自動的に適用してくれる。いかんせん人間が手を出すところは何もないので、ある意味AIお任せになるのだが、気に入らなければ自分で後から調整すればいい。


 今回フェアライトページにAI処理が多く追加されている。「AI会話マッチャー」は、条件が違う環境下で集音された音声の整合性を取ってくれる機能だ。カラーページにある、違うクリップのトーンに色味を合わせてくれる「ショットマッチ」の音声版といった感じである。「EQマッチャー」や「レベルマッチャー」も同様で、「AI会話マッチャー」の機能を個別に切り出したような機能である。


 「AI IntelliCut」は、複数の機能の詰め合わせになっているようだ。「Remove Silence」は、音声の無音部分を自動的に削除してくれるツールだ。無音部分にノイズが目立つ場合などに有効だ。


 この機能がフェアライトページに追加されたのは、別ソフトで編集したものが、MA処理のためにフェアライトに持ち込まれることが多いからだろう。編集時からDaVinci Resolveを使っていれば、その時点でAIによる整音ツールが使えるはずである。


 「Checkboard to New Tracks」は、ミックス収録された複数人の音声データから、話者ごとに音声トラックを分けてくれる機能だ。特定の人だけレベルを上げたりEQをかけたい場合に使えるだろう。


 「Create ADR Queue」は、オリジナルの音声から文字起こしを行い、アフレコ用のキューリストを作ってくれる機能である。映画などでは英語のせりふを日本語でアフレコする作業が発生するが、話者を聞き分けてキューリストを作ってくれるのは、現場ではありがたいはずである。


 ただこれらの機能は、メニュー的にはバラバラの位置にあり、これらをひっくるめて「AI IntelliCut」というのである、という風にはまとめられていない。まあメニュー構造もβ版のうちはしょっちゅう変わるので、そのうち何らかの形で整理されるのかもしれない。


 AIによる強力な機能として、「AIボイス変換」がある。これは、オリジナルの喋りの内容やイントネーションそのままに、別の人の声に差し替える機能だ。内蔵のプリセット音声は4つあり、それぞれピッチも変えられる。また特定の声を学習して、そのモデルを使用することもできる。


 AIにしゃべらせるという機能は、これまでもいくつか登場している。以前ご紹介した「Captions」は、しゃべった音声を別の言語に変換し、話し手の声そのままでいわゆる「アフレコ」してくれる機能を持っている。


 こうした機能は、比較的慎重に運用されてきた。なぜならば、こうした機能を利用すれば、悪意あるフェイク動画が簡単に作れてしまうからである。このためCaptionsでは、翻訳アフレコされた音声の編集や修正機能を搭載していない。


 一方「AIボイス変換」では、こちらが勝手にしゃべった内容を、誰かの声で喋らせることができる。例えば首相がしゃべっている動画を入手し、ボイスモデルを作成し、本来言うはずのない話をしゃべらせることもできる。口パクは合わないだろうが、素人では気が付かないこともあるだろう。


 こうした作業は、コマンド入力ベースのAIでは以前から可能だったが、難易度が高いのでそれほどやれる人もいなかった。しかしDaVinci Resolveのようなツールで作成できるというのは、難易度のレベルが違う。現在はまだ、ボイスモデルの作り方が公開されていないが、学習エンジンはすでにインストールできる状態にある。


 今後この機能の使われ方は、注意してみておく必要があるだろう。


●AI処理の方向性


 これまで編集ツールとAIという点では、Adobe Premiere Proの方が目立っていた。特に画像生成という分野では、Adobeなら学習ソースがきちんとライセンスされたものであるという保証ができるだけに、画像生成機能にも積極的に取り組んでいる。


 一方DaVinci Resolveは、画像生成に関してはあまり関心がないようだ。現在多くのAIがしのぎを削っている状況なので、やりたい人はそっちでやってくださいということだろう。


 それよりもコンテンツ制作の手順の多さを解消するという方向で、AI機能を設計しているように見える。今回特に音声に注力したのは、これまでどのソフトも手薄だったということもあるだろうし、音声処理はとにかく再生してリアルタイムで聞かなければならないので、時間がかかるという点が大きい。この点が効率化できるのは、音声処理が生業の人も助かるだろうし、映像は得意だが音声処理は苦手という人にも助かるはずだ。


 案外これまで盲点だった部分を押さえにきた、というのが今回のバージョン20の方向性だろう。



    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定