- LLMとコンピュータビジョンを使用して、ブラウザベースのワークフローを自動化するツール
- 従来の自動化ソリューションは、Webサイトのレイアウト変更時に壊れやすいDOMパースやXPathベースの操作に依存していたが、Skyvernはリアルタイムでビューポート内の項目を分析し、インタラクション計画を立ててこれを実行
- 利点:
- 新しいWebサイトでも動作可能で、カスタムコードなしに視覚要素をタスクに必要な動作へマッピングできる。
- Webサイトのレイアウト変更に強く、事前定義されたXPathやセレクタを使用しない。
- 単一のワークフローを複数のWebサイトに適用でき、複雑な状況でもインタラクションを通じて問題を解決できる。
仕組み
- エージェントシステム: Skyvernは複数のエージェントを使用してWebサイトを理解し、タスクを計画・実行する。
- インタラクション可能要素エージェント: WebサイトのHTMLを分析し、インタラクション可能な要素を抽出する。
- ナビゲーションエージェント: タスク完了のためのナビゲーションを計画する。
- データ抽出エージェント: Webサイトからデータを抽出する。
- パスワードエージェント: パスワードフォームを入力する。
- 2FAエージェント: 2FAフォームを入力する。
- 動的オートコンプリートエージェント: 動的オートコンプリートフォームを入力する。
Skyvern Cloud
- クラウド版: Skyvernのマネージドクラウド版では、インフラを管理することなく複数のSkyvernインスタンスを並列実行し、大規模にワークフローを自動化できる。また、ボット検知回避メカニズム、プロキシネットワーク、CAPTCHA解決機能が含まれている。
Skyvernのタスクとワークフロー
- タスク: Skyvernの基本的なビルディングブロックであり、特定の目標を達成するためにWebサイトをナビゲートするよう指示する。
- ワークフロー: 複数のタスクをつなげて1つの作業単位として構成する。例えば、ECストアで製品を自動購入するプロセスを自動化できる。
1件のコメント
Hacker Newsの意見
AnthropicのClaudeの「コンピューター使用」機能の発表への関心と、Skyvernの差別化ポイントについての質問がある
Playwrightを活用したAIラッパーが最近多く登場していると言及している
Skyvernのサンプル動画で、多くのプロンプト作成と平文データの使用に対する懸念を示している
Webサイトのリデザイン頻度は誇張されていると考えている
サードパーティーLLMに基づくスタートアップのリスクに言及している
SkyvernのAGPLでのオープンソース化を祝福し、LangChain統合の計画について質問している
「ブラウザ自動化」の概念を説明している
LLMワークフロー自動化ツールのユースケースと長期的な結果について疑問を投げかけている
Skyvernが複雑なプロセスの上にさらに別の複雑さを追加しているのではないかという懸念を示している
Skyvernをmodal.comで実行したことがあるかという質問がある
WebArenaとVisualWebArenaの性能についての質問がある
CloudflareがSkyvernをブロックする可能性についての質問がある
Skyvernを航空会社のWebサイトで実行した経験があるかという質問がある