- Fara-7Bは70億個のパラメータで構成された超小型のエージェント型言語モデル(SLM)で、Webブラウザを実際に操作しながらタスクを実行するComputer Use Agentアーキテクチャ
- マウスとキーボード入力を直接予測して視覚的にWebページを認識・操作し、別途アクセシビリティツリーやパーシングモデルなしに人間と同じ方法で相互作用
- オンデバイス実行が可能で、レイテンシを減らし個人情報保護を強化し、平均16ステップでタスクを完了して同クラスのモデルより効率性を向上
- WebTailBenchなどさまざまなベンチマークで同クラスおよび大規模モデルを上回る性能を記録し、特にWeb自動化と多段階タスクで高い成功率を達成
- Microsoftが公開したWebTailBenchデータセットとともに、Webベースのエージェント評価と再現可能な実験環境を提供し、実際のWebインタラクション研究の標準化に貢献
Fara-7B 概要
- Microsoft初のコンピューター操作専用エージェント型小型言語モデル(SLM)で、70億パラメータ規模で最先端の性能を達成
- Qwen2.5-VL-7Bをベースに、Magentic-Oneマルチエージェントフレームワークを活用した合成データ(145,000件の経路)で学習
- 7Bパラメータで構成され、ローカル実行が可能で、レイテンシ低減とデータプライバシー強化を実現
主な特徴
- 視覚的操作ベースでWebページを認識し、スクロール・クリック・入力など実際のユーザー行動を模倣
- 人間と同じ入力モダリティを使用し、別途パーシングモデルが不要
- 平均16ステップでタスクを完了し、類似モデル(平均41ステップ)と比べて効率性が向上
- オンデバイス配備によりクラウド依存を減らし、個人データ保護を強化
対応機能
- Web検索と結果の要約
- フォーム入力、アカウント管理
- 航空券・映画・飲食店の予約
- オンラインショッピングと価格比較
- 求人・不動産情報の探索
性能比較
- WebVoyager, Online-M2W, DeepShop, WebTailBenchの4つのベンチマークで評価
- Fara-7Bは**WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%**の成功率を記録
- 同クラスのモデル(UI-TARS-1.5-7B)および大規模モデル(GLM-4.1V-9B)より高い性能
WebTailBench ベンチマーク
- 11種類の実際のWebタスクを含む609件の課題で構成
- 単一サイトのタスク(ショッピング、航空、ホテルなど)と多段階タスク(比較ショッピング、組み合わせ型タスクなど)を含む
- Fara-7Bはすべてのカテゴリでコンピューター操作モデル中最高性能を記録
- 例: ホテル 53.8%, 航空 37.9%, ショッピング 52.4%, 比較ショッピング 32.7%
評価インフラ
- Playwrightを使って実際のブラウザ環境を再現
- Abstract Web Agent Interfaceによりさまざまなモデルを統合可能
- Fara-Agent Classを通じてモデルの実行とテストを支援
- 実験的公開版として、サンドボックス環境での実行および機密データ使用の制限を推奨
インストールと実行
再現性と評価環境
- WebVoyagerとOnlineMind2Webの評価を再現できる
webeval/フレームワークを提供
- BrowserBase統合により安定したブラウザセッション管理を実現
- 時間に敏感なタスクの更新、環境エラー処理、100ステップ制限などで評価の一貫性を確保
- WebVoyagerデータセットの実行不可能なタスク48件を削除し、将来日付の50件を更新
評価実行と分析
webeval/scriptsディレクトリで評価スクリプトを実行
- VLLMセルフホスティングまたはAzure Foundryエンドポイント方式を選択可能
- 結果は
gpt_eval/、traj/、screenshot_X.pngなどに保存
- Jupyter Notebookを使って平均スコア、失敗原因、中断された経路を分析可能
今後の計画
- LLM-as-a-judge評価用の検証パイプラインおよびWebTailBenchの公式人手アノテーションデータを公開予定
- BrowserBaseとの協業を通じて評価品質を向上
引用情報
- 研究利用時はMicrosoft Researchの**Fara: Fast and Accurate Web Agent (2025)**論文の引用を推奨
1件のコメント
Hacker Newsのコメント
これが今回の議論の本当の出発点だと感じる。他の大手企業もこのように外部モデルをファインチューニングしたことがあったのか気になる
もう中国企業が先行しているように思える
もしかするとOpenAIとの契約のせいで独自LLMを作れないのではないかと思う。Metaだけが米国内で大規模なオープンソースモデルを出していて、中国企業は完全公開モデルを出し続けている
今回のモデルはコンピュータ制御用なので合成データが適している。実データセットがほとんど存在しないからだ。
中国企業がオープンソースを選ぶ理由は、信頼の確保とマーケティング上の差別化が大きい
関連論文: https://arxiv.org/pdf/2504.14772v1
私はQwen3-VL-30BをPlaywrightと一緒に使ってみたが、ブラウザ自動化にはかなり良かった。ただし反復作業は結局コードで固定化する必要がある
このモデルはそれより小さいが、特化した目的で作られている点が興味深い
人々は本当にショッピングをAIに外注するのだろうかと思う
MicrosoftはただAI実験を手当たり次第に投げているようにも見える
モデルはページのスクリーンショットと目標を入力として受け取り、その目標に向けた自動化コマンドを生成する
Opus3で試したとき、「緊急脱出手順を開始します」のようなメッセージを吐きながら宇宙船を爆破する場面はかなり笑えた
関連論文: https://arxiv.org/abs/2511.10395
Sung Kimのフィードバック投稿も参考になる
私たちがスクリプトを書けなくてこうなったのか、ソフトウェアスタックが複雑すぎるのか分からない
まるでトークン使用量を増やしたい意図があるように感じた
企業が相互運用のためのAPIを提供しないので、結局LLMが人間のようにUIをブルートフォースで扱うほうが簡単になっている