- GPT-4(V)でWebインタラクションを自動化する際に生じる疑問
- LLMの応答をどのようにWeb要素へマッピングするか?
- LLMが作業空間をよりよく理解できるように、ページをどのようにマークアップすればよいか?
- テキスト専用LLMに「スクリーンショット」をどのように提供するか?
- TarsierはマルチモーダルなWebエージェント向けのビジョンユーティリティ
- [1]のようなIDを使って、ページ内のインタラクション可能な要素に視覚的な「タグ」を付ける方式で動作
- これにより、GPT-4(V)がタスクを実行できるよう、要素とIDの間のマッピングを提供
- インタラクション可能な要素は、ページ上に表示されるボタン、リンク、または入力フィールドとして定義
- ページのテキスト表現を提供可能
- つまり、マルチモーダルではないLLMでも、より深いインタラクションが可能
- これは既存のビジョン言語モデルの性能上の問題を考えると重要な点
- また、ページのスクリーンショットを、ビジョン機能のないLLMが理解できる空白構造の文字列に変換するOCRユーティリティも提供
- サポートされるOCRサービス
- 現在はGoogle Cloud Visionのみをサポートしており、Amazon TextractとMicrosoft Azure Computer Visionへの対応を予定
まだコメントはありません。