2 ポイント 投稿者 GN⁺ 2023-11-10 | 1件のコメント | WhatsAppで共有

vimGPT: マルチモーダルモデルに遊び場を提供する

概要

  • ウェブ探索のための大規模言語モデル(LLM)の活用は、複数のスタートアップやオープンソースプロジェクトで探求されている。
  • GPT-4Vの視覚能力だけを使ってウェブブラウジングが可能かを実験するプロジェクトに関心を持った。
  • モデルがクリックしたい対象を、テキスト化されたブラウザDOMなしで把握するのは難しいという課題がある。

設定

  • Pythonの要件をインストール: pip install -r requirements.txt
  • Vimiumをローカルにダウンロードし、Playwright実行時に手動で拡張機能を読み込む必要がある: ./setup.sh

アイデア

  • 自動コンテキスト検索のために、公開されたら Assistant API の使用を検討している。
  • Vimiumについて、コンテキストに基づいて要素を選択的にオーバーレイする特別版を開発できる可能性がある。
  • 低解像度ではモデルの認識に失敗する問題を、高解像度画像の使用で改善できる可能性がある。
  • LLaVa または CogVLM をファインチューニングして、より高速かつ低コストにできる可能性がある。
  • Vision API が JSON モードをサポートすれば使用する予定だが、現時点ではより原始的なプロンプト手法に頼る必要がある。
  • Vision API が一般的な指示を返し、それを JSON モード API で正式な形にする方法を検討している。
  • テキスト入力をなくしてアクセシビリティを高めるため、Whisper あるいは他のモデルを使った音声テキスト変換の追加も検討している。
  • 人工的なブラウザではなく、ユーザー自身のブラウザで動作するようにしたい。
  • モデルが黄色い四角形の下を見られない場合に備え、Vimium の有効化状態に応じたフレームを提供する。
  • 画像入力に加えて、Chrome のアクセシビリティツリーを入力として提供し、Vimium のバインディングにマッピングできるインタラクティブ要素のレイアウトを与える。

参考資料

GN⁺の見解

この記事で最も重要なのは、GPT-4Vのような大規模言語モデルを活用してウェブブラウジング体験を革新しようとする試みである。Vimium拡張機能を通じてモデルがウェブと相互作用できる方法を提供するのは興味深いアプローチであり、ウェブのアクセシビリティとインタラクティブ性を向上させる可能性を持っている。技術愛好家やソフトウェア開発者にとって、このような実験は人工知能の未来とウェブインターフェースの進化に関する洞察を与えるものであり、そのため非常に魅力的なテーマとなっている。

1件のコメント

 
GN⁺ 2023-11-10
Hacker Newsのコメント
  • こんなことが今や可能になっているなんて信じがたい:

    • ユーザーが特定の作業を行うのを助けるために選べるオプションとして、navigatetypeclickdone がある。
    • navigate は指定された URL に移動する必要があり、typeclick は文字列を受け取って処理する。
    • クリック時には黄色の文字シーケンスを、入力時にはメッセージを文字列として返す必要がある。
    • ページが満足できる状態なら done をキーとして返し、必ず JSON 形式でのみ応答しなければならない。
  • 私の職場では技術的負債が大きすぎるため、手作業でデータをコピーしている人が多い:

    • こうしたツールが既存の問題を解決できるレイヤーとして機能することに期待しているとの声。
  • 作者からのあいさつ:

    • プロジェクトの共有に感謝し、質問があれば知らせてほしいとのこと。
    • README に次のステップのアイデアがあるので、貢献を歓迎するとしている。
  • vim は ChatGPT に適した「実装」だという意見:

    • テキストストリームですべてを扱うことができ、インターネット上にはすでに多くの vimscript がある。
    • 類似の実験を始めたと言及し、関連プロジェクトへのリンクを共有。
  • GPT-4 Vision を使ったスクリーンショットとブラウジング作業に関する議論:

    • スクリーンショット上に情報をオーバーレイすることに失敗したあと、playwright からアクセシビリティツリーをテキストで取得し、モデルに対話オプションを知らせる方法のほうが良い結果を示した。
    • このアイデアを将来のアイデア一覧に追加するよう作者に提案。
  • ChatGPT インターフェース経由で試した経験の共有:

    • CSS を更新してグラデーションと角丸を取り除くよう提案。
    • 赤と太字の白文字の組み合わせが最も一貫した結果を示した。
    • フォントサイズを大きくし、ラベルが重なる場合は分離して矢印を追加するよう助言。
    • 注釈付き画像と注釈なし画像の両方を API に送ることを推奨。
  • こうしたツールがウェブ追跡や広告にどんな影響を与えるのかという問い:

    • エージェントがユーザーの代わりに広告やポップアップなしで欲しい内容を見つけてくれる「広告ブロッカー」としての可能性。
    • SEO の重要性を下げ、インターネットの質を向上させられるかもしれないという想像。
    • 一方で、広告がもたらしうる負の影響への懸念も示されている。
  • ブラウザ向けの自動操縦装置を作れる:

    • この技術が大規模に展開されれば、ボットトラフィックを見分けるのは非常に難しくなるだろう。
    • 短期的にはコストが安くならない、あるいは手軽に使えないだろうという指摘。
  • GPT-4V がウェブスクレイピングに新しい視点を示したという肯定的な意見:

    • このコードや類似コードがさまざまなプロジェクトで活用されるだろうと予想。
    • たとえば LinkedIn や Twitter のようなサイトのスクレイピング、競合分析、業界理解、ニュース取得などに使える。
  • 実際に使ってみた経験の共有:

    • クリック可能なオプションへの小さな注釈が画面にしばしば現れず、ループにはまる問題が発生。
    • Twitter へのログインには成功したが、100件の画像 API 制限をすぐに使い切ってしまった。
    • 今後のバージョンでは主にテキストベースのブラウザを使い、複雑な状況でのみ Vision を使う案を提案。