Google DeepMindのProject Mariner - ブラウザ自動化ツール
(deepmind.google)- ブラウザを使う新しい方法
- Gemini 2.0を基盤に、強力なマルチモーダル理解と推論能力を活用してブラウザ作業を自動化
- ブラウザ画面のピクセル、テキスト、コード、画像、フォームなど、あらゆる要素を理解して推論
- Native Multimodality : ブラウザ上のすべてのコンテンツを理解して推論
- Webサイトのテキスト、コード、画像など複合的な要素を分析
- 音声コマンドに応答し、作業の進行状況を視覚的なフィードバックとして提供
- Browser Interaction : 複雑なWebサイトをリアルタイムで理解して探索
- ユーザーの代わりにWebサイトと相互作用
- 反復作業を自動化して時間を節約
- コマンドを理解できない場合は明確な説明を要求
- Reasoning : 複雑な指示を理解し、実行可能なステップに分解して実行
- Web要素間の関係と機能を把握
- 作業計画と実行プロセスを透明に示し、ユーザーが意思決定プロセスを理解可能
- 現在は小規模な信頼テストグループでのみ利用可能 : テスト参加を希望する場合はウェイトリストへの登録が必要
1件のコメント
AIに最適化されたheadlessブラウザが登場し…
Webサーバーはそのブラウザに最適化されたレスポンスを返し…
彼ら(?)同士が会話する日も遠くない…