- 自然言語の命令をブラウザー操作(Seleniumコード)に変換して、ブラウザーを自動化する
- ユーザーの代わりに、反復的で時間がかかり、認知的な負荷がほとんど不要な単純作業を自動化することを目指している
- 自然言語のクエリをSeleniumコードに変換するエンジンを提供し、Webワークフローを簡単に自動化してブラウザー上で実行できるように設計されている
主な機能
- 自然言語処理: 自然言語による指示を理解し、ブラウザー上の操作を実行する
- Selenium統合: Seleniumとシームレスに統合され、Webブラウザーを自動化する
- オープンソース: transformersやllama-indexのようなオープンソースプロジェクトを基盤として構築されており、ユーザーの利益と整合する透明性を担保するオープンソースモデルを活用する
- プライバシーと制御のためのローカルモデル対応: ユーザーがAIアシスタントを完全に制御し、プライバシーを確保できるように、
Gemma-7bのようなローカルモデルをサポートする
- 高度なAI技術: ローカル埋め込み(
bge-small-en-v1.5)を使用してRAGを実行し、最も関連性の高いHTML部分を抽出したうえで、Few-shot学習とChain of Thoughtを活用し、LLM(Nous-Hermes-2-Mixtral-8x7B-DPO)をコード生成向けに追加学習させることなく、タスク実行に最も関連するSeleniumコードを導き出す
はじめに
- ColabノートブックでLaVagueを試すことができる。
ロードマップ
- 初期段階のプロジェクトではあるが、ユーザーのためにインターネット上で行動できる、透明性が高く整合的なAIモデルを大衆化する方向へ成長する可能性がある。
- Text2Actionの専門家になれるようローカルモデルを追加学習し、コード生成のために関連するコード部分だけを使うよう検索を改善し、他のブラウザーエンジン(例: playwright)や他の自動化フレームワークをサポートすることを主な探索領域としている。
GN⁺の見解
- LaVagueは、ユーザーの反復作業を自動化することで、時間を節約し生産性を高められる潜在力を持っている。これは特に、反復的なデータ入力やフォーム記入のような作業で有用になり得る。
- オープンソースを基盤として開発されており、ユーザーと開発者の双方に透明性と修正可能性を提供する。これはコミュニティ主導のイノベーションを促進し、ユーザーの信頼構築に役立つ可能性がある。
- LaVagueが扱う自動化技術は、すでに多くの企業や開発者にとって馴染みのあるSeleniumのようなツールと統合されているため、既存のワークフローにも容易に組み込める。
- AI技術を活用した自動化には、高い精度と効率が求められる。LaVagueが提供するFew-shot学習やChain of Thoughtのような技術は、複雑な作業を処理する際に発生し得るエラーを最小化する助けになる可能性がある。
- こうした技術の導入には、ユーザーのプライバシー保護とデータセキュリティへの配慮が必要である。ローカルモデル対応はこうした懸念を和らげる一つの方法になり得るが、ユーザーは依然として自分のデータがどのように処理されているかを注意深く監視する必要がある。
2件のコメント
ノートブック環境で試せるのはとてもよさそうですね。playwright の統合がマイルストーンに入っていてよかったです、、
Hacker Newsのコメント
新しいツールの試みに関する意見
Google Photosの一括削除に関する経験
TaxyAIのようなブラウザ自動化ツールに関する意見
Seleniumテストに関する経験
Webサイトへの自動化指示の無視に関する懸念
自動化の潜在的な影響に関する意見
モデル互換性への関心
オンライン投票への影響
成功率を示すベンチマークの重要性
プロジェクトへの関心