36 ポイント 投稿者 GN⁺ 20 일 전 | 1件のコメント | WhatsAppで共有
  • Claude Platformでアドバイザー戦略が正式導入 — Opusをアドバイザー、SonnetまたはHaikuを実行者(executor)として組み合わせ、コストを抑えつつOpus水準に近い推論能力をエージェントへ適用するパターン
  • Sonnetがタスクを単独で実行した場合と比べ、Opusアドバイザーを組み合わせるとSWE-bench Multilingualのスコアが2.7ポイント向上し、エージェントのタスクあたりコストは11.9%削減
  • Haiku + Opusアドバイザーの組み合わせはBrowseComp基準で41.2%となり、Haiku単独(19.7%)の2倍以上の性能を記録し、Sonnet単独比でコストは85%削減
  • advisor_20260301 ツールをMessages APIリクエストで宣言すると、単一の /v1/messages リクエスト内でモデルのハンドオフが完了し、追加の往復リクエストやコンテキスト管理なしで動作
  • アドバイザートークンはアドバイザーモデルの料金、実行者トークンは実行者モデルの料金でそれぞれ個別課金されるため、コストの追跡と制御が可能な構造

アドバイザー戦略の概要

  • SonnetまたはHaikuが実行者としてタスクを最初から最後まで実行し、ツール呼び出し・結果の読み取り・反復作業を担当
  • 実行者が合理的に解決しにくい判断に到達すると、Opusにガイダンスを要求し、Opusは共有コンテキストを参照して計画・修正・中断シグナルのいずれかを返す
  • アドバイザー(Opus)はツールを直接呼び出したり、ユーザー向け出力を生成したりせず、実行者へのガイダンスのみを提供
  • この構造は、大規模なオーケストレーターモデルが作業を分解して小型ワーカーモデルへ委任する従来のサブエージェントパターンを反転させた形で、別個のワーカープールやオーケストレーションロジックなしに動作
  • フロンティア級の推論は実行者が必要とする時にだけ適用され、それ以外の実行区間は実行者モデルのコストに抑えられる

性能評価結果

  • Sonnet + Opusアドバイザーの組み合わせはSWE-bench MultilingualでSonnet単独比2.7ポイント向上、エージェントのタスクあたりコストは11.9%削減
  • BrowseComp、Terminal-Bench 2.0 ベンチマークでもSonnet単独比でスコアが向上し、タスクあたりコストは削減
  • Haiku + Opusアドバイザー: BrowseCompスコア 41.2% — Haiku単独(19.7%)の2倍以上
    • Sonnet単独比ではスコアは29%低いが、タスクあたりコストは85%削減
    • アドバイザー追加によりHaiku単独比ではコスト増となるが、組み合わせたコストは依然としてSonnetより大幅に低い水準

Advisor Toolの使い方

  • advisor_20260301 をMessages APIリクエストで宣言すると、単一の /v1/messages リクエスト内でモデルのハンドオフが完了 — 追加の往復リクエストやコンテキスト管理は不要
  • 実行者モデルがアドバイザーを呼ぶタイミングを自律的に判断し、キュレーションされたコンテキストがアドバイザーモデルへ渡され、計画が返される
  • max_uses パラメータで、リクエストごとのアドバイザー呼び出し回数上限を設定可能
  • アドバイザートークンはusageブロックに別途報告されるため、ティア別の支出追跡が可能
  • 既存ツール(ウェブ検索、コード実行など)と同じループ内で併用可能
response = client.messages.create(  
    model="claude-sonnet-4-6",  # executor  
    tools=[  
        {  
            "type": "advisor_20260301",  
            "name": "advisor",  
            "model": "claude-opus-4-6",  
            "max_uses": 3,  
        },  
        # ... your other tools  
    ],  
    messages=[...]  
)  

料金体系

  • アドバイザートークンはアドバイザーモデル(Opus)の料金で課金され、実行者トークンは実行者モデル(Sonnet/Haiku)の料金で課金
  • アドバイザーは短い計画(通常は400〜700テキストトークン)のみを生成し、全体の出力は実行者が低単価で処理するため、総コストはアドバイザーモデル単独実行と比べて大幅に低い水準を維持

ユーザーフィードバック

  • Eve Legal MLエンジニア: "Haiku 4.5が複雑さに応じてOpus 4.6を参照し、動的に知能を拡張。フロンティアモデル級の品質を5分の1のコストで達成"
  • Bolt CEO: "複雑なタスクではより良いアーキテクチャ判断を下し、単純なタスクではオーバーヘッドがない — 計画と実行トレースの差は明確"
  • Genspark CTO: "エージェントターン、ツール呼び出し、総合スコアで明確な改善 — 自社開発のプランニングツールより優れた結果"

はじめに

  • 現在Claude Platformでベータ提供中
  • 開始手順:
    1. ベータ機能ヘッダーを追加: anthropic-beta: advisor-tool-2026-03-01
    2. Messages APIリクエストに advisor_20260301 を追加
    3. ユースケースに合わせてシステムプロンプトを修正
  • Sonnet単独 / Sonnet + Opusアドバイザー / Opus単独の3構成を、既存のeval suiteで比較実行することを推奨

1件のコメント

 
heycalmdown 20 일 전

現時点では特別目新しいアイデアではありませんが、インターフェースシグネチャやワークフローを壊さずに実行できるという点で、良いやり方だと思います。