Google Research、1枚の人物画像からその人物が話す動画を生成するAI「VLOGGER」発表

0

2024年03月19日 15:31  ITmedia NEWS

  • チェックする
  • つぶやく
  • 日記を書く

ITmedia NEWS

10人の静止画から生成された、同じ発話をしている人物動画(の画像)

 米Googleの研究部門Google Researchは3月13日、人物の1枚の画像から“音声駆動で”発話する、その人物の動画を生成するAIシステム「VLOGGER」に関する論文を公開した。関連ページのトップには、VLOGGERについて説明する音声を発話しているように見える10人の人物の動画が掲載されている。


【その他の画像】


 VLOGGERは、人物画像から3Dモーションへの確率的拡散モデルと空間および時間的制御の両方でテキストから画像にモデルを強化する新しい拡散ベースのアーキテクチャで構成されている。これにより、可変長の高品質動画の生成が可能になったとしている。


 人物画像ごとにトレーニングする必要はなく、口元だけでなく、瞬きなどの顔全体の表情の変化や、上半身画像の場合、手のジェスチャーも表現できる。


 80万個のアイデンティティの以前のデータセットより「1桁大きいく、動的なジェスチャーを備えた」新しいデータセット「MENTOR」に基づいてトレーニングした。


 研究者らは論文で、VLOGGERは「身体化された会話エージェント」への一歩だと語る。「プレゼンテーション、教育、ナレーション、低帯域幅のオンライン通信用独立ソリューションとして、人間とコンピュータの対話のためのインタフェースとして」活用できるとしている。


 動画はVLOGGERのページを参照されたい。


    ランキングIT・インターネット

    前日のランキングへ

    ニュース設定