Googleの最新AIモデル「Gemini 2.5 Computer Use」がブラウザを操作

# Googleの最新AIモデル「Gemini 2.5 Computer Use」がブラウザを操作

## 導入
Googleは、人間のようにウェブブラウザを操作できる新しいAIモデル「Gemini 2.5 Computer Use」を発表しました。このモデルは、APIが利用できないデータにアクセスするために、ブラウザウィンドウ内でクリック、スクロール、タイピングを行うことができます。

## 要約本文
Googleが発表した「Gemini 2.5 Computer Use」は、AIエージェントが人間向けに設計されたインターフェース内でタスクを実行できるようにすることで、ウェブとの対話方法に革命をもたらす可能性を秘めています。このモデルは、視覚的な理解と推論能力を活用し、ユーザーのリクエストを分析してフォームの入力や送信といったタスクを遂行します。これにより、UIテストやAPI接続がないインターフェースの操作など、これまでAIが苦手としていた領域での活用が期待されます。

Googleは、このモデルがAIモードの「agentic features」や、ブラウザ内でタスクを自動実行する研究プロトタイプ「Project Mariner」で利用されてきたと説明しています。OpenAIのChatGPTエージェント機能やAnthropicのClaude AIモデルの「computer use」バージョンと比較しても、Googleの新しいAIモデルはブラウザのみにアクセスするという点で特徴的です。Googleは、このモデルが「複数のウェブおよびモバイルベンチマークで主要な代替モデルを上回る」性能を発揮すると述べています。現在、ウェブブラウザの起動、テキスト入力、要素のドラッグ&ドロップなど、13種類のアクションをサポートしており、開発者向けにGoogle AI StudioとVertex AIを通じて提供されています。また、Browserbaseでは、このモデルが「2048のゲームをプレイする」や「Hacker Newsでトレンドの議論を閲覧する」といったタスクを完了するデモが公開されています。

この技術は、AIがより複雑なウェブベースのタスクを自律的に実行できるようになる未来を示唆しており、ビジネスプロセスやユーザーエクスペリエンスに大きな影響を与える可能性があります。

## 元記事
[Google’s latest AI model uses a web browser like you do](https://www.theverge.com/news/795463/google-computer-use-gemini-ai-model-agents)