8 ポイント 投稿者 xguru 2024-12-18 | 1件のコメント | WhatsAppで共有
  • ブラウザを使う新しい方法
  • Gemini 2.0を基盤に、強力なマルチモーダル理解と推論能力を活用してブラウザ作業を自動化
  • ブラウザ画面のピクセル、テキスト、コード、画像、フォームなど、あらゆる要素を理解して推論
  • Native Multimodality : ブラウザ上のすべてのコンテンツを理解して推論
    • Webサイトのテキスト、コード、画像など複合的な要素を分析
    • 音声コマンドに応答し、作業の進行状況を視覚的なフィードバックとして提供
  • Browser Interaction : 複雑なWebサイトをリアルタイムで理解して探索
    • ユーザーの代わりにWebサイトと相互作用
    • 反復作業を自動化して時間を節約
    • コマンドを理解できない場合は明確な説明を要求
  • Reasoning : 複雑な指示を理解し、実行可能なステップに分解して実行
    • Web要素間の関係と機能を把握
    • 作業計画と実行プロセスを透明に示し、ユーザーが意思決定プロセスを理解可能
  • 現在は小規模な信頼テストグループでのみ利用可能 : テスト参加を希望する場合はウェイトリストへの登録が必要

1件のコメント

 
iolothebard 2024-12-18

AIに最適化されたheadlessブラウザが登場し…
Webサーバーはそのブラウザに最適化されたレスポンスを返し…
彼ら(?)同士が会話する日も遠くない…