3 ポイント 投稿者 GN⁺ 2025-11-28 | 1件のコメント | WhatsAppで共有
  • Fara-7Bは70億個のパラメータで構成された超小型のエージェント型言語モデル(SLM)で、Webブラウザを実際に操作しながらタスクを実行するComputer Use Agentアーキテクチャ
  • マウスとキーボード入力を直接予測して視覚的にWebページを認識・操作し、別途アクセシビリティツリーやパーシングモデルなしに人間と同じ方法で相互作用
  • オンデバイス実行が可能で、レイテンシを減らし個人情報保護を強化し、平均16ステップでタスクを完了して同クラスのモデルより効率性を向上
  • WebTailBenchなどさまざまなベンチマークで同クラスおよび大規模モデルを上回る性能を記録し、特にWeb自動化と多段階タスクで高い成功率を達成
  • Microsoftが公開したWebTailBenchデータセットとともに、Webベースのエージェント評価と再現可能な実験環境を提供し、実際のWebインタラクション研究の標準化に貢献

Fara-7B 概要

  • Microsoft初のコンピューター操作専用エージェント型小型言語モデル(SLM)で、70億パラメータ規模で最先端の性能を達成
  • Qwen2.5-VL-7Bをベースに、Magentic-Oneマルチエージェントフレームワークを活用した合成データ(145,000件の経路)で学習
  • 7Bパラメータで構成され、ローカル実行が可能で、レイテンシ低減とデータプライバシー強化を実現

主な特徴

  • 視覚的操作ベースでWebページを認識し、スクロール・クリック・入力など実際のユーザー行動を模倣
  • 人間と同じ入力モダリティを使用し、別途パーシングモデルが不要
  • 平均16ステップでタスクを完了し、類似モデル(平均41ステップ)と比べて効率性が向上
  • オンデバイス配備によりクラウド依存を減らし、個人データ保護を強化

対応機能

  • Web検索と結果の要約
  • フォーム入力、アカウント管理
  • 航空券・映画・飲食店の予約
  • オンラインショッピングと価格比較
  • 求人・不動産情報の探索

性能比較

  • WebVoyager, Online-M2W, DeepShop, WebTailBenchの4つのベンチマークで評価
  • Fara-7Bは**WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%**の成功率を記録
  • 同クラスのモデル(UI-TARS-1.5-7B)および大規模モデル(GLM-4.1V-9B)より高い性能

WebTailBench ベンチマーク

  • 11種類の実際のWebタスクを含む609件の課題で構成
  • 単一サイトのタスク(ショッピング、航空、ホテルなど)と多段階タスク(比較ショッピング、組み合わせ型タスクなど)を含む
  • Fara-7Bはすべてのカテゴリでコンピューター操作モデル中最高性能を記録
    • 例: ホテル 53.8%, 航空 37.9%, ショッピング 52.4%, 比較ショッピング 32.7%

評価インフラ

  • Playwrightを使って実際のブラウザ環境を再現
  • Abstract Web Agent Interfaceによりさまざまなモデルを統合可能
  • Fara-Agent Classを通じてモデルの実行とテストを支援
  • 実験的公開版として、サンドボックス環境での実行および機密データ使用の制限を推奨

インストールと実行

  • pip install -e . または uv sync --all-extras でインストール
  • Playwrightブラウザのインストールが必要
  • Azure Foundryによるクラウドホスティング、またはVLLMを用いたGPUセルフホスティングに対応
  • コマンド例:
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    

再現性と評価環境

  • WebVoyagerOnlineMind2Webの評価を再現できるwebeval/フレームワークを提供
  • BrowserBase統合により安定したブラウザセッション管理を実現
  • 時間に敏感なタスクの更新環境エラー処理100ステップ制限などで評価の一貫性を確保
  • WebVoyagerデータセットの実行不可能なタスク48件を削除し、将来日付の50件を更新

評価実行と分析

  • webeval/scriptsディレクトリで評価スクリプトを実行
  • VLLMセルフホスティングまたはAzure Foundryエンドポイント方式を選択可能
  • 結果はgpt_eval/traj/screenshot_X.pngなどに保存
  • Jupyter Notebookを使って平均スコア、失敗原因、中断された経路を分析可能

今後の計画

  • LLM-as-a-judge評価用の検証パイプラインおよびWebTailBenchの公式人手アノテーションデータを公開予定
  • BrowserBaseとの協業を通じて評価品質を向上

引用情報

  • 研究利用時はMicrosoft Researchの**Fara: Fast and Accurate Web Agent (2025)**論文の引用を推奨

1件のコメント

 
GN⁺ 2025-11-28
Hacker Newsのコメント
  • MicrosoftがQwen2.5-VL-7Bをファインチューニングしたという点が核心だと思う
    これが今回の議論の本当の出発点だと感じる。他の大手企業もこのように外部モデルをファインチューニングしたことがあったのか気になる
  • ただQwen2.5-VLにMicrosoftのステッカーを貼っただけのようにも見える
    もう中国企業が先行しているように思える
    • その通り。たとえばFara-7Bは第一次世界大戦のソンムの戦いについてはうまく答えるが、天安門事件については「センシティブな政治的話題なので回答できない」と回避する
  • 新しいウェブ作業ベンチマークのWebTailBenchが公開されたことこそ本当のポイントだと思う
  • Microsoftがなぜずっと合成データ(synthetic data)で学習したモデルばかり出しているのか疑問だ
    もしかするとOpenAIとの契約のせいで独自LLMを作れないのではないかと思う。Metaだけが米国内で大規模な
    オープンソースモデル
    を出していて、中国企業は完全公開モデルを出し続けている
    • 契約上の制約はないと思う。ただ、別の基盤モデル(foundation model)を作ることにリソースを浪費したくないだけではないか
      今回のモデルはコンピュータ制御用なので合成データが適している。実データセットがほとんど存在しないからだ。
      中国企業がオープンソースを選ぶ理由は、信頼の確保
      マーケティング上の差別化
      が大きい
    • 法務チームがそうしろと言った可能性が高い。大企業は本質的にイノベーション不可能な構造を持っている
    • Gemma、Phi、OLMO、Mistral、GPT-OSSのようなモデルも十分に競争力があり、一般的なハードウェアでもよく動く
    • 合成データ学習のほうがはるかに効率的だ。実データは次のトークンしか分からないが、合成データは確率分布全体が分かるので学習効果が倍増する
      関連論文: https://arxiv.org/pdf/2504.14772v1
    • 合成データだけを使うほうが安全でもある。成人向けコンテンツやロールプレイのような問題を避けられる
  • モデルはブラウザ利用にしか制限されていないように見える。たとえばKiCADのような一般的なプログラムは制御できない
    私はQwen3-VL-30BをPlaywrightと一緒に使ってみたが、ブラウザ自動化にはかなり良かった。ただし反復作業は結局コードで固定化する必要がある
    このモデルはそれより小さいが、特化した目的で作られている点が興味深い
    • こうしたCUAアクションを決定的なスクリプトに変換したいなら、Stagehandキャッシュガイドを参考にするとよい
    • ブラウザ内でWASMでエミュレーションすれば可能だ。これはモデルの限界というよりセキュリティサンドボックスの制約によるものだ
    • 関連ツールやコードがあれば共有してほしいという要望がある
    • 実際に試したところ、Playwright環境でしか動作しなかった
  • 表を見ると大半のユースケースがよく分からない。ショッピング比較くらいしか理解できない
    人々は本当にショッピングをAIに外注するのだろうかと思う
    • 必ずしも消費者向けだけではない。たとえばAPIのない保険会社のウェブサイトのような場所を自動化するときに役立つ
    • カテゴリ別の商品を集めて要約してくれるのはかなり有用な機能だ
    • AIが代わりに決済や予約をするのは気味が悪い。代わりに調査と探索までだけ任せたい
    • 私は実際にワインの買い物をAIに任せている
  • こうした自動化はすでに何年も前から可能だった。GPUも不要だし、インターフェースが変わったらスクリプトを修正すればよいだけだ
    MicrosoftはただAI実験を手当たり次第に投げているようにも見える
    • 核心は、スクリプトを直接書かなくても10億以上のウェブサイトを対象に自動化できるという点だ
      モデルはページのスクリーンショットと目標を入力として受け取り、その目標に向けた自動化コマンドを生成する
  • こういうモデルがビデオゲームの入力制御にも使えるのか気になる。Kerbal Space ProgramをAIがプレイしたら面白そうだ
    • 以前からこうした実験はあった。kRPCを使えばモデルがゲームと簡単にインターフェースできる
      Opus3で試したとき、「緊急脱出手順を開始します」のようなメッセージを吐きながら宇宙船を爆破する場面はかなり笑えた
    • DeepMindのSIMA-2も参考になる(ローカルモデルではない)
    • AlibabaのAgentEvolverはゲーム専用ではないが、OODAループベースのエージェントシステムとして興味深い
      関連論文: https://arxiv.org/abs/2511.10395
      Sung Kimのフィードバック投稿も参考になる
    • オンラインポーカーをやらせたら何が起きるのか気になる
  • MicrosoftがQwen-7Bをファインチューニングしたようだ
    • 正確にはQwen2.5-VL-7Bだ。この違いはかなり重要だ
    • もう勢力図が変わりつつある感じがする
  • ウェブページのクリック自動化のために70億パラメータモデルが必要だというのは笑ってしまう
    私たちがスクリプトを書けなくてこうなったのか、ソフトウェアスタックが複雑すぎるのか分からない
    • 最近『My New Agent Coding Workflow』という動画を見たが、単にファイルをダウンロードすれば済むことをIDEにプロンプトで指示していた
      まるでトークン使用量を増やしたい意図があるように感じた
    • これは技術の問題ではなく社会的協力の問題だ。
      企業が相互運用のためのAPIを提供しないので、結局LLMが人間のようにUIをブルートフォースで扱うほうが簡単になっている
    • 現在のソフトウェア業界と金融業界の半分は、過剰な複雑性による人為的な参入障壁の上に成り立っている