Claude Computer Use - Visionは究極のAPIなのか？

xguru · 2024-10-28T09:41:01+09:00

AnthropicのComputer Use APIを使ってみた結果、遅くて信頼しにくく、コンピューターを乗っ取りやすいが、「ものすごく興味深い」 Claude Computerは、Visionがあらゆるものを結びつけるAPIであるため、常に何らかのことができ、本当の「エージェント」体験を感じさせてくれるどのように動作するのか？ Claude Computer Useは基本的に、コンピューター操作データでファインチューニングされたClaude3.5のように見える他のモデルよりも、コンピューターとその中にあるもののスクリーンショットをはるかにうまく理解する [得意なこと] 画面の読み取りとナビゲーション（比較的） Claudeがスクリーンショットの内容を読み間違えるのを見たことはほとんどない他のAIと比べて、(500,250)位置の入力欄をクリックしてくださいのような座標を把握するのがかなり得意（画面サイズによって少しずれることはある）関数呼び出し関数呼び出しは構造化出力より厳密には劣ると思うことに慣れていたが、Claude Computerは関数呼び出しをうまく使うたとえば、ウェブサイトへ即座に移動できるブラウザツール関数が与えられると、ブラウザのアイコンをクリックする代わりにその関数を好む段階的思考タスクを分解するよう求めると、Claudeは通常、実行すべきステップを把握して着手するのがかなり得意だ [苦手なこと] 画面を読むべきタイミングを知ることスクリーンショットを撮るのはコストが高いため、AIは自分の操作が成功したと仮定しがちだたとえばフィールドに入力してもフォーカスが当たっていなければ、あとからそれを検知するのは非常に難しい。OSの関数呼び出しは、意図した結果が実際に起きたかどうかを非常に正確に説明する必要があるこれがClaudeが最も頻繁に止まるパターンだ。新しいスクリーンショットを撮る頃には、自分の進捗が分からなくなっているより多くのデータを取得すること最寄りのシャワルマ店を3軒探すよう頼むと、ClaudeはGoogleマップに「シャワルマ」と入力し、上位3件の結果を選ぶだろうクリックが必要な場合、メニューから先に「距離順で並べ替え」を選ぶことはほとんどないこれは、より良いプロンプト構造で解決できるかもしれない状態を記憶すること Computer Useではプログラム状態のより多くの部分が画像に保存されるため、それを想起するのはより脆弱に見える以前に開いたタブや切り替えたアプリケーションなど、過去に行ったことにも当てはまる Claudeには、関連する状態をできるだけテキストで出力させ、ツール経由でシステム状態を提供するのがよいモーダルとポップアップのナビゲーション Claudeはモーダルやポップアップで最も頻繁に混乱し、それらをクリックして抜け出す方法が分からなかったり、正しい状態ではないことを認識できなかったりする [何が必要か？] できるだけ多くのシステム状態を提供すること理想的には、Claude Computerには本当に必要なときだけVisionを使ってほしい Visionを使わずに容易に状態を理解できるツールを提供すれば、より速く動き、より明確に考えられる次のようなものを提供すると非常に役立つ: 開いているアプリケーションの一覧どのアプリケーションにアクティブフォーカスがあるかそのアプリケーション内で何にフォーカスが当たっているかそのアプリケーションを特化して操作するための、できるだけ多くの関数呼び出し特にブラウザツールが重要（例: 特定のURLへ移動したり検索したりするため）不確実性をどう扱うかこれはエージェント開発における最大の未解決問題だエージェントにとって最も重要なのは信頼であり、信頼には入力とフィードバックが必要だテスト中、Claudeが何をすべきか分かっていないのが明らかな場面が何度もあったが、そのたびに中断したり質問したりせず、強行してしまった AIが質問したり、行き詰まったときに推論したりできるように質問ツールを作るのにかなり長い時間を費やした。しかし、ほとんど使われなかったこれはもっともだ。関数呼び出しは、情報が必要だと分かっていて、それを取得しに行けばよいだけのときに最も有効だからだしかし、自分が不確実であると知ることは別の問題だ。エージェント開発者は、AIが自らの不確実性を報告すると信頼できなければならない [今後の道筋] Claude Computer Useは、本当のエージェント的な振る舞いへ向かう第一歩だ私たちはまだ、この現在のモデルの能力を最大限に引き出せていない可能性が高いしかし、本当のエージェント体験を作るには、LLMの関数呼び出し以上のものが必要になるのは明らかだ

(thariq.io)

4 ポイント投稿者 xguru 2024-10-28 | まだコメントはありません。 | WhatsAppで共有

AnthropicのComputer Use APIを使ってみた結果、
- 遅くて信頼しにくく、コンピューターを乗っ取りやすいが、「ものすごく興味深い」
Claude Computerは、Visionがあらゆるものを結びつけるAPIであるため、常に何らかのことができ、本当の「エージェント」体験を感じさせてくれる

どのように動作するのか？

Claude Computer Useは基本的に、コンピューター操作データでファインチューニングされたClaude3.5のように見える
他のモデルよりも、コンピューターとその中にあるもののスクリーンショットをはるかにうまく理解する

[得意なこと]

画面の読み取りとナビゲーション（比較的）

Claudeがスクリーンショットの内容を読み間違えるのを見たことはほとんどない
他のAIと比べて、(500,250)位置の入力欄をクリックしてください のような座標を把握するのがかなり得意（画面サイズによって少しずれることはある）

関数呼び出し

関数呼び出しは構造化出力より厳密には劣ると思うことに慣れていたが、Claude Computerは関数呼び出しをうまく使う
たとえば、ウェブサイトへ即座に移動できるブラウザツール関数が与えられると、ブラウザのアイコンをクリックする代わりにその関数を好む

段階的思考

タスクを分解するよう求めると、Claudeは通常、実行すべきステップを把握して着手するのがかなり得意だ

[苦手なこと]

画面を読むべきタイミングを知ること

スクリーンショットを撮るのはコストが高いため、AIは自分の操作が成功したと仮定しがちだ
たとえばフィールドに入力してもフォーカスが当たっていなければ、あとからそれを検知するのは非常に難しい。OSの関数呼び出しは、意図した結果が実際に起きたかどうかを非常に正確に説明する必要がある
これがClaudeが最も頻繁に止まるパターンだ。新しいスクリーンショットを撮る頃には、自分の進捗が分からなくなっている

より多くのデータを取得すること

最寄りのシャワルマ店を3軒探すよう頼むと、ClaudeはGoogleマップに「シャワルマ」と入力し、上位3件の結果を選ぶだろう
クリックが必要な場合、メニューから先に「距離順で並べ替え」を選ぶことはほとんどない
これは、より良いプロンプト構造で解決できるかもしれない

状態を記憶すること

Computer Useではプログラム状態のより多くの部分が画像に保存されるため、それを想起するのはより脆弱に見える
以前に開いたタブや切り替えたアプリケーションなど、過去に行ったことにも当てはまる
Claudeには、関連する状態をできるだけテキストで出力させ、ツール経由でシステム状態を提供するのがよい

モーダルとポップアップのナビゲーション

Claudeはモーダルやポップアップで最も頻繁に混乱し、それらをクリックして抜け出す方法が分からなかったり、正しい状態ではないことを認識できなかったりする

[何が必要か？]

できるだけ多くのシステム状態を提供すること

理想的には、Claude Computerには本当に必要なときだけVisionを使ってほしい
Visionを使わずに容易に状態を理解できるツールを提供すれば、より速く動き、より明確に考えられる
次のようなものを提供すると非常に役立つ:
- 開いているアプリケーションの一覧
- どのアプリケーションにアクティブフォーカスがあるか
- そのアプリケーション内で何にフォーカスが当たっているか
- そのアプリケーションを特化して操作するための、できるだけ多くの関数呼び出し
  - 特にブラウザツールが重要（例: 特定のURLへ移動したり検索したりするため）

不確実性をどう扱うか

これはエージェント開発における最大の未解決問題だ
エージェントにとって最も重要なのは信頼であり、信頼には入力とフィードバックが必要だ
テスト中、Claudeが何をすべきか分かっていないのが明らかな場面が何度もあったが、そのたびに中断したり質問したりせず、強行してしまった
AIが質問したり、行き詰まったときに推論したりできるように質問ツールを作るのにかなり長い時間を費やした。しかし、ほとんど使われなかった
これはもっともだ。関数呼び出しは、情報が必要だと分かっていて、それを取得しに行けばよいだけのときに最も有効だからだ
しかし、自分が不確実であると知ることは別の問題だ。エージェント開発者は、AIが自らの不確実性を報告すると信頼できなければならない

[今後の道筋]

Claude Computer Useは、本当のエージェント的な振る舞いへ向かう第一歩だ
私たちはまだ、この現在のモデルの能力を最大限に引き出せていない可能性が高い
しかし、本当のエージェント体験を作るには、LLMの関数呼び出し以上のものが必要になるのは明らかだ