米Googleは5月13日(現地時間)、年次開発者会議「Google I/O」をハイブリッドで開催した。約2時間の、ほぼAI一色の基調講演(Gemini Advancedによると「AI」に121回言及したという)で発表されたことを(だいたい時系列に)簡単にまとめる。なお、昨年同様に開発者向け基調講演は別途行われており、技術的な詳細はそちらで発表された。
基調講演開始前には、「Music AI Sandbox」を駆使するアーティスト、マーク・リビレット氏のパフォーマンスが数十分行われた。
基調講演に最初に登場したスンダー・ピチャイCEOは、同社の生成AI「Gemini」のこれまでの成長について語った。同氏によると、150万以上の開発者が活用しているという。
生成AI搭載検索エンジン「AI Overview」(旧SGE)
|
|
「AI Overview」は、昨年のGoogle I/Oで発表されたGoogle検索の生成AI機能「Search Generative Experience」(SGE)を改称し、改善したもの。
詳細を説明したリズ・リード氏は、「Googleがあなたのためにググってくれるようになる」と語った。
AI Overbiewは「Gemini時代のGoogle検索」であり、リアルタイム情報、ランキングと品質システム、新しいエージェント機能で改善されたという。
マルチステップリーゾニング(多段階推論)で、1つの質問で複数ステップの結果を提示する。
例として、ピラティスについて検索すると、ユーザーの近所のスタジオとその営業時間、さらには予約方法を提示する。
|
|
さらに動画での検索「Ask with Video」のデモも、その場で行った。
デモでは、クラシックなレコードプレーヤーの使い方が分からないという設定で、レコードに針を落としてもうまくいかない様子を撮影し、その動画に「なんでうまくいかないの?」という質問を添えて検索すると、正しい操作方法の動画を提示するというものだった。
Geminiは動画をフレームごとに分析して検索機能でレコードプレーヤーのメーカーを特定し、Web上で関連情報を見つけてくるという。
AI Overviewは、まず米国で同日ロールアウトする。
GoogleフォトのAI機能「Ask Photos with Gemini」
|
|
GoogleフォトもGemini搭載の「メジャーアップグレード」が行われ、「Ask Photos」機能が追加される。
例えば「私の車のナンバーはなんだったけ?」とGoogleフォトの検索枠に入力すると、車のナンバープレートが写った写真を提示する。
また、「娘の水泳での上達の記録を見せて」と入力すると、娘が水泳しているいくつかの写真を時系列に並べたアルバムを作成する。
Ask Photosはこの夏登場の予定だ。
Gemini 1.5 Proのアップデート
Googleは今年、100万トークンのコンテキストウィンドウを備えた「Gemini 1.5 Pro」と軽量オープンモデルファミリーの「Gemma」をリリースした。
I/Oでは、Gemini 1.5 Proのアップデートと「Gemini 1.5 Flash」のリリースを発表した。
Gemini 1.5 Proのアップデートでは、翻訳、コーディング、推論などで品質を向上させた。ネイティブでマルチモーダルになり、コンテキストウィンドウは200万トークンになる。
Gemini 1.5 Flashは、Geminiの小型モデル。
いずれも日本を含む200以上の国と地域でプレビュー版を提供しており、6月に一般提供する予定。
価格は、Proは12万8000トークンまでは100万トークンあたり3.50ドル、それ以上は7ドル。Flashは100万トークンあたり35セント。
ちなみに、前日に米OpenAIが発表した「GPT-4o」は100万入力トークンあたり5ドル、100万出力トークンあたり15ドルだ。
「Gemma 2」と「PaliGemma」
Gemmaの2つの新モデル追加も発表した。
「PaliGemma」は既存のGemmaバリアント、「CodeGemma」と「RecurrentGemma」に加わるGoogle初のビジョン言語のオープンモデル。画像キャプションや視覚的なQ&Aなどに最適化されている。既に利用可能だ。
「Gemma 2」は次世代のGemma。6月リリースの予定だ。パラメータ27Bモデルが追加される。
日常生活に役立つエージェント「Project Astra」
Google DeepMindのデミス・ハサビスCEOがGoogle I/Oに初登壇し、「Project Astra」を紹介した。
Project Astraは、リアルタイムのマルチモーダルAIアシスタント。ハサビス氏が動画で披露したデモでは、スマートフォンのカメラでオフィス内を映しながら、映っている物体(スピーカー)は何か口頭で尋ねるとすぐに返答したり、画面上に矢印でさらにスピーカーの一部について訪ねたり、「私、どこにメガネを置いたっけ?」と尋ねると「りんごの横です」と答えたりしている。
応答はレイテンシーがなく、口調もかなり自然だ。前日にOpenAIがデモしたChatGPTのGPT-4o版と引けを取らない印象だ。
Project Astraの機能の一部は年内にGeminiアプリで使えるようになる見込みだ。
画像生成AI「Imagen 3」
テキストから画像を生成するAIモデル「Imagen」が3になる(2は2023年12月リリース)。
よりリアルになり、細部まで豊かに表現できるようになる。たとえば狼のヒゲが数えられるほどとダグ・エク氏は語った。
labs.googleでサインアップを受け付けている。
プロンプトから音楽ループを生成する「Music AI Sandbox」
「Music AI Sandbox」は、プロンプトを介してループを作成できる音楽生成AIツールだ。テキストからも、例えば数フレーズのベースラインの音からも作曲できる。
デモ動画でマーク・リビレット氏は「ヴィオラ」「リズミカルな手拍子」などと口頭で指示することで作曲してみせた。
テキストから動画を生成する「Veo」
「Veo」は、テキストや画像から1080P動画を生成するAI。OpenAIの「Sora」などと同様のモデルだ。
生成した動画は、追加のプロンプトでさらに編集することもできる。Google DeepMindの専用サイトからサインアップできる。
ハサビス氏は最後に「われわれはAGIへの道で今後も続く進歩に触発されている」と語った。
AIを支える第6世代TPU「Trillium」
再登場したピチャイ氏は、生成AIを支えるデータセンター向けTPUの第6世代「Trillium」を発表した。先代より4.7倍高速という。
同氏は先月発表した初のArmベースのCPU「Axion」についても言及し、2025年からは米NVIDIAのBlackwell GPUを提供する最初のクラウド企業の1つになるとも語った。
Google Cloudの「AI Hypercomputer」
「AI Hypercomputer」は、“画期的な”スーパーコンピュータのアーキテクチャ。パフォーマンスを最適化したハードウェア、オープンソフトウェア、最先端のMLフレームワーク、柔軟な消費モデルの統合システムを採用しているという。
「Gemini for Workspace」のアップデート
Gemini for Workspaceは既に提供されている。68カ国でGemini in Meetが使えるようになる。
Gmailで以下の3つの機能が追加される。
・メールの内容を要約するボタン:ボタンをタップするだけでメールの内容をまとめ、さらにプロンプトに追加質問を入力すると説明を追加する
・Q&A機能:質問すると、受信箱から答えをみつけてくる
・返信文の候補の提示:3種類くらいの返信文候補を提示
米国ではまとめるボタンは5月に、その他は7月に利用可能になる見込み。
また、Workspaceのアプリを横断して使える機能「AI Workflows」の例として、Gmailの受信箱から領収書を抽出してスプレッドシートで出納帳にするデモも行われた。日時や取引先の欄も作られ、何に関する出費が多いか質問すると、各項を色分けした上で、バランスを表すグラフを表示する。この機能は9月にLabsに登場する予定。
AIをチームメイトにする「AI Teammate」
「AI Teammate」はGoogleチャットでチームの一員として会話に参加するAI。独自のGoogleアカウントを与え、名前を付けたチームメートに役割を設定しておく。例えば、プロジェクトの進行中に問題になりそうなポイントを指摘する、といった役割を担わせる。
自然に会話する「Gemini Live」
「Gemini Live」は、ユーザーの発話パターンに適応して自然な会話をするAI。年内に提供の予定。
Gemini Avancedの強化
「世界一長いコンテキストウィンドウ」が利用可能になるという。テキストなら1500ページ、コードなら3万行、動画なら1時間をプロンプトに入力可能になる。
また、複数のPDFファイルや動画を一度にプロンプトに入れ、すべてを要約させることもできる。
Gemini Advancedのコンテキストウィンドウは、年内に200万トークンになる。
ようやくAndroidの話
次はAndroidエコシステム担当のサミール・サマト氏の登場。
「AndroidをGoogle AIを体験するための最高の場にする」とサマト氏。
サマト氏は、「Circle to Search」(日本では「かこって検索」)を年末までに2億台のAndroid端末で利用可能にすると語った。
また、かこって検索と「LearnLM」(後述)を組み合わせることで、教科書の文章問題などの解答をサポートしてもらえるようになるという。
一部のPixel端末に搭載されている「Gemini Nano」が、今年後半からマルチモーダルになる。つまり、テキストだけでなく、風景、音、話し言葉などを理解するようになる。
米国では、Gemini Nanoによって、着信した通話が詐欺かどうか解析し、警告する機能も追加する計画(おそらくAndroid 15の機能になる)。詐欺によくある会話パターンに着信の話をリアルタイムで解析し、該当する可能性が高いと警告を表示する。
責任あるAI開発の話
Research, Technology & Society担当上級副社長のジェームズ・マニカ氏が登場し、責任あるAIと役に立つAIについて語った。
レッドチームアプローチで「Imagen 3」や「Veo」のようなツールの悪用を防ぐツールの開発に取り組んでいるという。また、C2PAとの協力の下、電子透かし「SynthID」のテキストと動画向け版を開発していると語った。
役に立つAIとしては、Geminiによる教育研究に基づいて学習用に微調整したモデル「LearnLM」を発表した。
このモデルで、検索やYouTube、Gemini Advancedなどでの学習体験を強化し、理解を深められるようにしているという。
このように、今回のGoogle I/Oの基調講演ではTPU以外のハードウェアの発表はなく、AI一色だった。
最後に再登場したピチャイ氏は、Googleの目標は「誰にとっても便利なAIを構築すること」だと語った。
「われわれがAIについて何回言及したか数えていた人がいるかもしれません」と笑いを取り、Gemini AdvancedのプロンプトにI/Oの原稿のテキストファイルを入れてAIをカウントしたところ、120回だったと表示した。ピチャイ氏がもう1度「AI」と言うと、カウントは121になった。
|
|
|
|
Copyright(C) 2024 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。