ブラウザとモバイルアプリを操る新たな知能
Google DeepMindが発表した最新モデル「Gemini 2.5 Computer Use」は、AIが自律的にウェブやモバイルアプリの操作を行うという新たな領域を切り開きました。これは単なる自動化ツールではなく、実際に「画面を見て判断し、クリックや入力を実行する」インターフェース操作AIです。
開発者はGemini APIを通じてこの機能にアクセスでき、現在プレビュー版が提供されています。基盤には「Gemini 2.5 Pro」が用いられ、ユーザーエージェントがグラフィカルUIを直接操作することを可能にしています。
連続ループ型のインタラクション構造
Gemini 2.5 Computer Useの仕組みは、人間の行動と似ています。AIは環境のスクリーンショット、ユーザーのリクエスト、そして過去の操作履歴を受け取り、次に取るべき行動(クリック・入力・スクロールなど)を決定します。その操作結果として新しい画面が生成され、再びAIにフィードバックされる——この「観察・判断・行動・再評価」のサイクルが連続して続く構造です。
この仕組みにより、AIは動的なウェブページやモバイルアプリに対して柔軟に対応でき、単なる定型動作を超えた“理解に基づく操作”を実現しています。
主戦場はブラウザ操作、モバイルも対応範囲に
Googleによると、このモデルは特にウェブブラウザ操作に最適化されていますが、モバイルのUI制御にも対応します。ただし、デスクトップOSレベルの操作(ファイル操作やシステム制御など)は対象外とされています。
このアプローチは、クラウド経由で安全かつ統一的にUIを扱うことを目的としており、ローカル環境への干渉を避けつつ高い汎用性を実現しています。
性能評価とベンチマーク結果
Gemini 2.5 Computer Useは、既存のモデルと比較して複数のベンチマークで優位性を示しています。Googleが挙げる指標として、「Online-Mind2Web」「WebVoyager」「AndroidWorld」などがあり、これらの内部評価では平均70%以上の精度を達成したと報告されています。
また、平均応答遅延は約225秒とされ、UI操作というタスク特性を考慮すれば比較的スムーズな処理速度といえます。評価にはBrowserbaseが関与しており、第三者的視点からも検証が進められています。
悪用防止のための安全機構
Googleは、AIによる自律操作に内在するリスクにも明確に言及しています。特に懸念されるのは以下の3点です。
- ユーザーによる意図的な悪用
- AIの予期せぬ挙動
- ウェブ上のプロンプトインジェクション攻撃
これらの問題に対処するため、モデル内部には安全審査システムが組み込まれています。各操作ステップの実行前に「安全サービス」が提案内容を精査し、開発者はさらにシステム指示で確認要求を追加したり、特定行動(例:CAPTCHA突破や医療機器操作など)をブロックすることができます。
AIの行動を人間の監督下に置く「ステップ単位の安全審査」という設計思想は、DeepMindらしい倫理的配慮の表れといえるでしょう。
すでにGoogle内部で実運用中
このモデルはすでにGoogle内部で複数の用途に利用されています。具体的には、UIテストの自動化プロジェクト「Project Mariner」や、Firebaseのテストエージェント、さらに検索機能のAIモードなどで活用されています。
開発者向けには「Google AI Studio」および「Vertex AI」経由で利用可能となっており、Browserbase上にはデモ環境も用意されています。今後は開発者コミュニティによる検証と応用事例が増えることが予想されます。
AIエージェントの新しい地平線
Gemini 2.5 Computer Useの登場は、「AIが人間の代わりに操作する」という未来像をより現実的なものにしました。かつてはコードを通じてしか操作できなかったアプリケーションの世界に、視覚情報と行動判断を組み合わせた“汎用操作知能”が入り込んできたのです。
もちろん、課題は残ります。反応速度や操作の精度、そして倫理的リスクへの対応など、改良すべき点は多いでしょう。しかしこの流れは止まることなく、AIがソフトウェアを「使う側」に回る時代の幕開けを告げています。
人間とAIの境界線が、ブラウザの中で少しずつ溶け始めている——そんな時代の息吹を感じさせる発表でした。

