米Google傘下のGoogle DeepMindは12月4日(現地時間)、テキストや画像から多様な3D仮想世界を生成するfoundation world model(基盤世界モデル)の「Genie 2」を発表した。
Genie 2では1人称視点、アイソメトリックビュー(斜め上から見下ろす視点)、3人称視点など、多様な視点からの世界を生成でき、生成した仮想世界は、キーボードとマウスを使って操作できる。また、物理法則やNPCの行動などをリアルにシミュレートできる。ただし、生成できるのは最大1分間だ。
Genie 2の応用例として、現実世界では危険なタスクを含む、多様な状況でのAIエージェントのトレーニングや評価、ゲーム開発者やアーティストが新たな体験をプロトタイピングすることの支援などが考えられる。
Genie 2は大規模な動画データセットでトレーニングされた自己回帰型拡散モデルという。Google DeepMindはこのデータセットのソースについては言及していない。
|
|
Genie 2で生成された動画の複数のサンプルを公式ブログで見ることができる。
公式ブログにはGenie 2を公開しているのかどうかについては明記されていない。
インタラクティブな仮想世界を生成するAIモデルとしては、米World Labsが2日、1枚の画像からインタラクティブな3D世界を生成する技術を発表した。
|
|
|
|
Copyright(C) 2024 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。