1
2025年02月27日 15:21 ITmedia PC USER
OpenAIが「Operator」というAIエージェントをChatGPT Proユーザーに向けて提供し始めた。ChatGPTをはじめとする大規模言語モデルは「情報検索や文章生成」を中心に進化してきたが、Operatorはさらに踏み込んで、Webブラウザを使って行う日常業務の代行をAIエージェントで行うという試みだ。
もともと、ネット検索をより深く行って、複数の情報源を照合してレポートを作成するエージェント機能「DeepResearch」というが追加され話題となっていたが、Operatorはクラウド上の仮想コンピュータで動作する専用WebブラウザをAIが操作し、旅行手配やショッピング、請求書作成などの実用的なタスクを自動的にこなすというものだ。
英語環境では学習がかなり進んでいるのか、高い精度でタスクをこなしてくれるようだ。日本語環境では、やや不得意なケースやWebのインタフェース操作を迷うときがある。
しかし、Operatorはそのような場面にユーザーが手動で介入して途中のWeb操作を手助けしたり、クレジットカード情報の入力などを行う仕掛けが盛り込まれている。操作の手助けは学習され、うまく動作してくれないサイトでの今後の動作に役立っていくだろう。
|
|
と、ここまで書いても、まだピンとこない読者もいるかもしれない。本記事では、Operatorの技術的背景と特徴、さらに実際に使ってみての可能性など考えてみることにしよう。
●AIが「ブラウザ操作する」とは?
これまでの大規模言語モデルは、自然言語での対話やテキスト生成を得意としてきたが、ネット何かを行うためには「何かのサービスにログインし、複数のページを行き来してボタンを押す」といった行為が必要になることが多い。つまりアドバイスはできても、操作の代行はできなかった。
しかし、Operatorはユーザーの指示を受け、リモートコンピュータ上で動作する専用のWebブラウザ上でボタンをクリックしたり、フォームへの文字入力を行い、人間がPCやスマートフォンでやっていることをそのまま再現しようとする。
これは、OpenAIが「Computer-Using Agent(CUA)モデル」と呼んでいるもので、GPT-4oをベースにビジュアル認識を行い、強化学習による高度な推論能力を組み合わせてブラウザ操作を代行している。
|
|
OperatorはWebブラウザのスクリーンショットを読み取ってGPT-4oで認識し、GUI上のボタンやメニューの位置を判断してクリックを実行する。
もちろん、サービスを提供するサイトが専用APIを備えてくれるなら、こうしたことは行わなくてもいいが、CUAではさまざまなWebサイトでの挙動を強化学習で覚え、APIを使っているかのような挙動を、疑似的な画面操作で実現する。
人間は自分の専門外の仕事をするときに、詳しい人にどうするべきか尋ねるだろう。Operatorも何かのエラーや判断できない状況が生じた場合には、人間に操作や指示を求める。
さらにエラーを検知しても、自己修正しようと試みる機能もある。例えばフォーム入力を間違えたら、画面上に表示されたエラーメッセージから、その原因を推測して再度入力を行う。
これまでRPA(Robotic Process Automation)でやってきた手法とも似ているが、より視覚情報と推論によって柔軟性を獲得しているところが大きな違いだ。
|
|
ちなみにOperatorが動作する様子は画面上でモニターできるので、それを見ているだけでも興味深い。
●Computer-Using Agent(CUA)モデルとは?
OpenAIがCUAと呼んでいるものは、前述したようにGPT-4oの画像識別機能を用いてWebサイトの視覚認識能力を組み込み、高度な強化学習でブラウザ操作を学習させたAIモデルだ。
テキストだけでなく画像からも文脈を読み取るため、画面上に表示されるボタンや入力欄も情報として取り込みながら目的を達成しようとする。また、強化学習により、Webのデザイン傾向も学んでいるため、明確なラベルがなくても、「ここにログイン用のボタンがありそうだ」と推測しクリックする、といった推論処理によるトライ&エラーも試みる。
ここで明確にしておくべきなのは、Operatorが操作しているWebブラウザはユーザーのPC上ではなく、リモートコンピュータ上の専用ブラウザという点だ。
ユーザーが「明日の午前6時30分発のフライトに間に合うようにUberを予約して」といったプロンプトを入力すると、Operatorはリモートブラウザ上で該当の予約ページを検索して開き、画面をスクリーンショットして解析しながら次のアクションを決めていく。
筆者は請求書発行とメールでの送信の指示をしてみたが、Webから利用できる請求書発行アプリケーションを探して必要事項を入力し、PDFをダウロードしてGmailで送信してくれた。
その間、PDFのダウンロードを許可するかや、Gmailへのログインなどはユーザーが補助する必要があったものの、それ以外のタスクはOperatorが自動で行ってくれた。予約や購入の確定ボタンを押すといった確認作業でも、直前に必ずユーザーに確認を求める設計になっている。
複数のステップが必要なタスクは、モデルが自動的にサブタスクに分解して順次実行する。
例えば、「ホテル検索→日付の入力→部屋のタイプ選択→予約情報の最終確認」といった一連の操作は、ステップごとにモデルが逐次判断して進める。誤操作をしてエラーが出た場合も、スクリーンショット解析をもとに原因を推定しリトライを試みる。
従来にあったような、特定のWebサイトを決め打ちしたマクロ操作よりもはるかに柔軟な対応が期待できるだろう。
●強化学習で進む適応範囲の拡大
Operatorが興味深いのは、ユーザーがさまざまなタスクでこの機能を利用することで強化学習が自然に進んでいき、その汎用性が高まっていくところにあると思う。Webブラウザを通じて人間が行う操作の大部分を代行できるだろう。
実際、Open AIは旅行、レストラン予約、ショッピング、情報収集など、多岐にわたる事例を紹介している。その一部を紹介しよう。
米国の鉄道であるアムトラックの予約では、出発地と目的地を入力して列車の時刻表を検索し、そのままチケット予約の準備まで進めることに成功したという。
「明日の午前6時30分に空港へ行くUberをお願い」と命じると、OperatorがUberのWebサイトにアクセスして時間設定を行い、最終確認手前まで自動で操作を進める。
Uberの手配はWebのユーザーインタフェースが米国版と同じなため、日本でも問題なく使えた。
OpenTableなどの提携サービスを利用し、日時や人数を指定して空き状況を確認し予約することも可能だ。海外のデモでは、サンフランシスコのレストランを検索し、OpenTable経由で予約手続きを完了させた例が紹介された。
日本のOpenTableも「明日の午後7時に和食レストランで4人分の席を確保して」という抽象度の高い指示に対して、候補の検索から予約手続きへの移行までを一貫してやってのける。なお、食べログにも対応しているようだった。
英語サイトの方が学習成果は多いように感じるが、日本語サイトもかなり幅広く主要なサービスを網羅しているのかもしれない。
ECサイトでの商品検索や価格比較、在庫チェック、カート投入なども自動化できる。気になる製品のセール情報を探すといったタスクをOperatorに指示すると、楽天市場やAmazon.co.jpをそれぞれ調べてくれる。最終的に「この商品を購入する」直前でユーザーに決裁を仰ぐ設計になっており、誤った商品の購入リスクは低い。
学習資料のダウンロードや複数サイト間のデータ入力といった事務処理でも活用が期待されている。特にWebフォームの反復入力などの単調な作業は、Operatorにまとめて任せると効率が大きく向上する。GUIのレイアウトが多少変わっても視覚認識により修正を試みるため、従来型のマクロより融通は利くだろう。
自己完結できるようにトライ&エラーを行うため、未知のWebサイトでもトリッキーな操作がなければ問題なく動作することが多い。また、ユーザーが介入して正しい操作を覚え続けることで、Operatorは成長を続ける。
●発展途上だが“可能性”を知らしめる存在に
汎用性と柔軟性は大きな魅力だが、現時点ではミスも少なくない。
OpenAI自身も誤動作や操作ミスのリスクを認めている。現時点では内部テストでも成功率が満足できるほど高くはなく、操作エラーや意図しない挙動が起こりうるとしている。あくまでもテスト段階ということだ。
また、ユーザーの介入も不可欠だ。CAPTCHAやログイン認証など、人間による対応が必要な局面では処理が止まってしまう。また最終決定時に必ずユーザー承認を求める設計のため、「完全放任で自動化」というわけではない。
AIエージェントが自由にWebブラウザを操作できるようになることで、悪用のリスクやプロンプトインジェクションへの脆弱(ぜいじゃく)性も懸念されるところだろう。Operatorが意図せず不正なサイトの指示に従う可能性もある。
OpenAIの開発者は多層的な安全策を施しているというが、懸念を払拭しきるには時間がかかるだろう。
また、現時点では月額3万円のChatGPT Proプラン限定で、一般ユーザーは利用できない。将来的に安価なプランに提供範囲が拡大する可能性はあるが、まだ研究プレビュー段階でユーザーベースが限られている。
Webブラウザ外のローカルアプリ操作には非対応で動作速度やレスポンスも現時点では満足できるとはいえない。しかし、Operatorは“答えるAI”から“動くAI”へ進化させる第一歩になり得る。それは、汎用(はんよう)的なAIエージェントへの大きなステップだ。
今後はさらに強化学習のフィードバックを重ね、成功率を上げ、より広範なWebサイトや多様なGUI要素にも対応できるようアップグレードを重ねていくとみられる。
なお、将来的にはChatGPT Plusや企業向けTeamプランでも利用可能になるとしている。今後は各社が同様のAIエージェント技術を繰り出し、より広い業界で実務的な利用が進むだろう。旅行やショッピングといった個人向けのシナリオだけでなく、社内業務の代行や顧客サービスの向上にも応用が期待される。
この取り組みが、既存WebサービスとAIが連携する価値を可視化することで、直接AIと対話するAPIを使うサービスが増加することも期待できる。それはAGI(汎用人工知能)には必要なことだ。
つまりこの取り組みがAGIに向けての大きな一歩となるかもしれない。現時点では研究プレビューの範囲だが、”AIと人間世界とのインタラクション”を夢想する絶好の機会といえる。
|
|
|
|
Copyright(C) 2025 ITmedia Inc. All rights reserved. 記事・写真の無断転載を禁じます。
掲載情報の著作権は提供元企業に帰属します。
Amazon、新生成AI「Alexa+」発表(写真:ITmedia NEWS)25
Amazon、新生成AI「Alexa+」発表(写真:ITmedia NEWS)25