- GoogleがGemini 2.5 ProベースのComputer Useモデルを公開し、開発者がユーザーインターフェースを直接操作するエージェントを構築できるよう支援
- Web・モバイル制御ベンチマークで競合モデルより高速かつ高精度な性能を示し、Google AI StudioとVertex AIでプレビューとして利用可能
- モデルは画面キャプチャ・ユーザー要求・アクション履歴を入力として受け取り、クリック・入力・スクロールなどのUI操作コマンドを自動生成
- 安全性確保のためPer-step Safety Serviceとユーザー確認手順を含み、誤用やセキュリティ脅威を防止
- すでにProject Mariner、Firebase Testing Agent、AI Mode in Searchなどに適用され、実務レベルの自動化とテスト効率改善を実証
概要
- Google DeepMindがGemini 2.5 Computer Useモデルをリリース
- Gemini 2.5 Proの視覚理解および推論機能を基盤に、Web・モバイルUIを直接制御できるエージェント向けモデル
- 従来のAPIベース自動化を一段進め、フォーム入力・スクロール・ログイン処理などグラフィカルインターフェースとの相互作用を実行
- Google AI StudioとVertex AIを通じてプレビュー形式で提供
動作方式
- 新しい
computer_useツールを通じて反復ループ構造で動作
- 入力: ユーザー要求、現在のUIのスクリーンショット、直近のアクション履歴
- 出力: クリック・入力・ドラッグなどのUIアクション関数呼び出し
- 一部の高リスク作業(例: 決済)はユーザー確認手順を要求
- 各アクション後、新しいスクリーンショットとURLがモデルに再び渡され、次の段階を実行
- 主にWebブラウザー環境に最適化されているが、モバイルUI制御でも高い性能を示す
性能
- BrowserbaseとGoogle独自評価で業界最高水準の精度およびレイテンシを記録
- Online-Mind2Webなどのベンチマークで競合モデル比50%以上高速な応答を示す
- 複雑な画面内コンテキスト把握の精度も改善され、18%の性能向上が報告
- UI制御タスク中の失敗状況を自動復旧する機能も含まれ、テスト自動化に有用
安全性設計
- エージェントの誤用防止のため、モデルに組み込みの安全機能を含む
- Per-step Safety Service: モデルが提案したアクションを実行前に検証
- System Instructions: 特定作業(セキュリティ・医療・CAPTCHAなど)に対してユーザー確認または拒否ルールを設定可能
- 開発者向けガイドで追加のセキュリティ推奨事項を提供し、本番サービス適用前の徹底したテストを推奨
初期適用事例
- Google内部チームがUIテスト自動化に導入し、失敗率を25%削減
- Project Mariner、Firebase Testing Agent、AI Mode in Searchなど実際の本番環境で利用中
- 外部の初期ユーザー評価でもデータ解析の信頼性向上と実行速度改善の効果が報告
- 例: Autotabは複雑なコンテキスト処理精度が18%向上
- Google決済プラットフォームは失敗テストの60%を自動復旧
はじめ方
2件のコメント
Hacker Newsのコメント
以前、信号機のある片側1車線の道路で待っていたとき、幹線道路に車がいなければコンピュータビジョンのカメラシステムで信号を早く切り替えられるのではないかと思ったことがあった
でも当時はコンピュータビジョンが十分に成熟しておらず、代わりに磁気センサーで車を検知できると知った
ずっと単純なハードウェアとソフトウェアで簡単に解決できる問題で、自分の考えた方法は複雑すぎて高価なソリューションだった
コンピュータの利用においても、ML/AIは構造化データ向けに最適化されるべきだと信じていた
しかし世の中は複雑になり、コンピュータの速度も上がったので、今ではAIが画面を見てマウスを動かし、クリックするほうが現実的になっている
今ではコンピュータビジョンのカメラが一般的に使われている
磁気センサーは自転車利用者をうまく検知できないため、最近はカメラのほうが好まれている
市の交通担当者の立場では、カメラは渋滞監視ツールとしても使えるので、ますます人気が高まっている
うちの近所では夜間、信号機に簡単な光センサーを付けて、近づくときにハイビームを点けると信号が切り替わるシステムを導入していた
そうでなければ幹線道路が一晩中青信号のままになる仕組みだった
車が交差点に到達すると、ハイビーム信号か磁気フラックスでのみ信号が変わるようになっていた
自分はよく自転車に乗るが、屋外ではポッドキャストを聞きながら「Hey Google, 30秒戻して」と話して聞き直したり、広告を飛ばしたりできるのがとても便利だ
室内では主にTV番組やYouTube動画をキャストして見ている
時々YouTube動画を切り替えたくなるが、音声コマンドでYouTubeは一応動くものの、結果はいまひとつだ
他のサービスでは音声コマンドはほぼ不可能だ
理想の世界では、Googleがこうした統合のために優れたAPIを提供し、すべてのアプリがそれをうまく反映してくれればいいと思う
もしその過程を飛ばしても優れた結果が得られるなら、自分にとって非常に価値のある体験になると思う
自分だけのシナリオかもしれないが、本当に期待している部分だ
コンピュータ利用は、AIが労働市場に与える影響を予測するうえで最も重要なベンチマークだ
ML/AIがコンピュータ上のさまざまな作業を効率的にこなすための、より良い方法はたくさんある
しかしそれらの方法は、どれも各作業に合わせて個別に設計しなければならない
汎用化された方式こそが、よりスケールする方向だ
参考までに、この種の交通カメラはすでに一般的に使われている
https://www.milesight.com/company/blog/types-of-traffic-cameras
自分は長い間、反復的な手作業を自動化するために「世の中のあらゆるものをデータベースオブジェクトにしよう」という方針に集中してきた
コンピュータは最小限の人間の介入だけで膨大なことをこなせると考えていた
機械学習にも多くの労力を注いだ
ところが実際には、画面バッファのような半構造化された人間世界のデータをそのまま使い、コンピュータがマウスとキーボードで人間のように作業するようにできるとは思っていなかった
もちろん、このアイデアには全面的に賛成だ
10年以内に、コンピュータがChromeを開き、ビデオ通話で会話しながら仕事をこなし、相手がそれがコンピュータだとまったく気づかない時代が来るかもしれないと思う
AIが「理論上はもっと良い」方法より成功しているのは、根本的な「社会的」問題を解決するからだ
コンピューティングのエコシステムは協調的というより、競争的で防御的な環境だ
退屈な手作業の大半を自動化できないように設計された構造そのものが、インターネットで金を稼ぐ中核になっている
ユーザーが自動化によって購買誘導や広告表示を避けられるようになると、収益が落ちるからだ
ロボット工学でも似たような議論があった
「なぜわざわざロボットを人間の形にする必要があるのか、もっと効率的な形があるのではないか」という疑問は多かった
しかし結局、ツールが大衆的に採用されるには、非効率であっても人間中心の環境に合わせて設計されなければならない
性能重視のアプリケーションではカスタム設計と最適化が必須だが、大衆的な普及には人間に合わせる方式が必要だ
朝にデーティングアプリのことを考えていて、最後の話を思い出した
「自分のchatgpt」が自分を十分によく代弁できるなら、デーティングアプリで相手のchatgptと事前面談のようなことをしてくれる形のマッチングが可能だと思う
最近エンタープライズのキーノートで「デジタルツイン」の話を聞いたが、これがその概念に当たる気がする
まだこの点について判断を下すには早いが、どこまで発展するのか気になる
コンピュータが直接Chromeを開いてビデオ通話をし、人のようにタスクをこなして、相手にコンピュータだと気づかれないようにすることが、本当に良い結果だと思っているのか気になる
技術的にはものすごくて印象的な成果だろうが、どこか気味の悪さもある
自分はChrome devtools MCP(https://github.com/ChromeDevTools/chrome-devtools-mcp)でGemini CLIからブラウザ自動化をうまくやれた
だから今回のモデルは、さらに良い性能を見せそうだと思う
MCPを使って、どんな自動化タスクをうまくこなせたのか気になる
この方式はコンピュータ利用に必要なモデルとは何の関係もない
MCPサーバー上でGoogleが提供する事前定義済みツールを使うだけで、どんなソフトウェアにも適用できる汎用モデルではない
UXより速い実際のユースケースがある人がいれば教えてほしい
これをどう使えばいいのか、いまいちピンと来ない
これだけ多くの投資が行われているのを見ると、自分だけが何かを見落としているのは確かだと思う
技術や機能そのものは印象的だが、具体的な活用例が知りたい
ブラウザボットに今日のWordleを解かせようとすると、文字の色(緑、黄色、灰色)のフィードバックを見られず、答えを当てられない状況が起きる
単語は入力できるが、フィードバックを解釈できないらしい
Geminiが https://www.google.com/recaptcha/api2/demo でcaptchaを正常に通過した
投稿を修正する: 実際には自分の見間違いで、Google CAPTCHAの突破はGeminiではなくBrowserbaseによるものだった
詳細はこちらにまとめてある
自動化はBrowserbase上で動作しており、Browserbaseはcaptcha solverを搭載している
自動なのか人手なのかははっきりしない
おそらくGoogle自身のネットワークのIPから試行されたため、通過できたのかもしれない
(Browserbaseのデモだけ使ってみた)
理論的に可能だと知っているのと、短い命令を与えるだけで実際にサイトにログインし、スクロールし、投稿するのを目の前で見るのとでは、まったく違う体験だ
今日のwordleでは自分も2回目の試行でまったく同じミスをして引き分けになった
作業中に対話できない点は少し残念だった
こうした機能は、エンタープライズシステムではガバナンスのためのフック/コールバックのような機能が必須だ
UIベースのシステムでは、フックやエージェントイベントの処理がはるかに難しい
関連リンクとして claude code フック文書、google adk コールバック文書 を参照
Claude Codeがどれほど頻繁にフックを無視し、計算を終えて、その結果を活用しないかを知っているので、「ガバナンス」という概念はほぼ不可能だと思う
LLMは人々が考えるより予測不能で、制御ははるかに難しい
テスト失敗で「進めるな」と明確に表示されていても構わず進むのを見たことがある
結局、確実に止められる唯一のものは、本当に危険な理論上の「claude-killing」フックだけだ
自分はBrowserbaseでアイデンティティ製品を担当している
最近、ウェブ全体にRBAC(ロールベースアクセス制御)を導入する方法について考えている
コールバックがこの方式の助けになるのか気になっている
「OSレベルの制御はまだ最適化されていない」という話を見て、AGIはまだ来ていないのだと思った
もしこのレベルのOS制御が可能になり、LLMの利用コストも妥当なら、AGIに近い何かを始められると思う
興味深いことに、ほとんどの人もコンピュータをまともに扱えていない
「知能」という概念を定義するのは本当に不可能だと感じる
なぜOS全体の制御がAGI(汎用人工知能)段階へ進むきっかけになると思うのか、気になる
皮肉なことに、大半のテック企業は、ユーザーに余計な情報を経由させることで金を稼いでいる
たとえば、広告なしで自由にインターネットを探索できるなら、あるいはTwitterで無駄なアルゴリズム抜きに見たいコンテンツだけ見られるなら、使わない人がいるだろうか