
Googleが5月20日、あらゆる入力からコンテンツを生成できる新しいAIモデルファミリー「Gemini Omni」を発表した。
開発の初期段階からネイティブなマルチモーダルとして構築しており、高い推論能力と創造力を組み合わせている。画像、音声、動画、テキストを自由に組み合わせて入力し、現実世界の知識に基づいた動画を生成できる。まるで会話をするように簡単に動画を編集することも可能だとする。
第1弾として、同社は「Gemini Omni Flash」をGeminiアプリ、Google Flow、YouTube Shortsで順次提供する。自然言語だけで直感的に動画を編集でき、全てのプロンプトが前の文脈を引き継ぐ仕様だ。登場キャラクターの見た目や特徴は一貫して保たれ、物理法則も崩れずにシーン全体の流れが記憶される。自分で撮影した動画をベースに、内容を自由に変更したり追加したりできる。
Gemini Omniは重力、運動エネルギー、流体力学といった物理法則も理解し、科学や歴史への知識も有する。これにより、水や物の動きがより自然で、リアリティーあふれるシーンを創り出すという。短いプロンプトを入力するだけで、難解で複雑なアイデアを分かりやすく解説する動画を作成でき、タンパク質の折りたたみを解説するクレイアニメなども再現する。
|
|
|
|
さらに、画像、テキスト、動画、音声など、どんなフォーマットからでも、それらを組み合わせた1つの動画作品を作り上げる。入力レファレンス機能を使うことで、お気に入りのキャラクターの画像、背景シーン、手書きのスケッチなどを活用し、思い描くシーンに一致した作品を創り出せる。自分の声を使って動画を作成できるアバター機能も提供し、見た目も声も自分そっくりのデジタルバージョンを生成できる。
Gemini Omniで作成された全ての動画には、電子透かし技術「SynthID」が埋め込まれる。動画が同モデルによって生成されたものかどうかは、GeminiアプリやGoogle検索などを通じて簡単に確認できる。Gemini Omni Flashは5月20日から世界中のGoogle AI Plus、Pro、Ultraユーザーを対象に順次提供を開始する。今週からはYouTube Shortsなどで、数週間以内にはAPIを通じて開発者向けにも提供する。
|
|
|
|
|
|
|
|
Copyright(C) 2026 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。