GPT-4 VisionとVimiumを活用したウェブ探索
(github.com/ishan0102)vimGPT: マルチモーダルモデルに遊び場を提供する
概要
- ウェブ探索のための大規模言語モデル(LLM)の活用は、複数のスタートアップやオープンソースプロジェクトで探求されている。
- GPT-4Vの視覚能力だけを使ってウェブブラウジングが可能かを実験するプロジェクトに関心を持った。
- モデルがクリックしたい対象を、テキスト化されたブラウザDOMなしで把握するのは難しいという課題がある。
設定
- Pythonの要件をインストール:
pip install -r requirements.txt - Vimiumをローカルにダウンロードし、Playwright実行時に手動で拡張機能を読み込む必要がある:
./setup.sh
アイデア
- 自動コンテキスト検索のために、公開されたら Assistant API の使用を検討している。
- Vimiumについて、コンテキストに基づいて要素を選択的にオーバーレイする特別版を開発できる可能性がある。
- 低解像度ではモデルの認識に失敗する問題を、高解像度画像の使用で改善できる可能性がある。
- LLaVa または CogVLM をファインチューニングして、より高速かつ低コストにできる可能性がある。
- Vision API が JSON モードをサポートすれば使用する予定だが、現時点ではより原始的なプロンプト手法に頼る必要がある。
- Vision API が一般的な指示を返し、それを JSON モード API で正式な形にする方法を検討している。
- テキスト入力をなくしてアクセシビリティを高めるため、Whisper あるいは他のモデルを使った音声テキスト変換の追加も検討している。
- 人工的なブラウザではなく、ユーザー自身のブラウザで動作するようにしたい。
- モデルが黄色い四角形の下を見られない場合に備え、Vimium の有効化状態に応じたフレームを提供する。
- 画像入力に加えて、Chrome のアクセシビリティツリーを入力として提供し、Vimium のバインディングにマッピングできるインタラクティブ要素のレイアウトを与える。
参考資料
GN⁺の見解
この記事で最も重要なのは、GPT-4Vのような大規模言語モデルを活用してウェブブラウジング体験を革新しようとする試みである。Vimium拡張機能を通じてモデルがウェブと相互作用できる方法を提供するのは興味深いアプローチであり、ウェブのアクセシビリティとインタラクティブ性を向上させる可能性を持っている。技術愛好家やソフトウェア開発者にとって、このような実験は人工知能の未来とウェブインターフェースの進化に関する洞察を与えるものであり、そのため非常に魅力的なテーマとなっている。
1件のコメント
Hacker Newsのコメント
こんなことが今や可能になっているなんて信じがたい:
navigate、type、click、doneがある。navigateは指定された URL に移動する必要があり、typeとclickは文字列を受け取って処理する。doneをキーとして返し、必ず JSON 形式でのみ応答しなければならない。私の職場では技術的負債が大きすぎるため、手作業でデータをコピーしている人が多い:
作者からのあいさつ:
vim は ChatGPT に適した「実装」だという意見:
GPT-4 Vision を使ったスクリーンショットとブラウジング作業に関する議論:
ChatGPT インターフェース経由で試した経験の共有:
こうしたツールがウェブ追跡や広告にどんな影響を与えるのかという問い:
ブラウザ向けの自動操縦装置を作れる:
GPT-4V がウェブスクレイピングに新しい視点を示したという肯定的な意見:
実際に使ってみた経験の共有: