- Claude Platformでアドバイザー戦略が正式導入 — Opusをアドバイザー、SonnetまたはHaikuを実行者(executor)として組み合わせ、コストを抑えつつOpus水準に近い推論能力をエージェントへ適用するパターン
- Sonnetがタスクを単独で実行した場合と比べ、Opusアドバイザーを組み合わせるとSWE-bench Multilingualのスコアが2.7ポイント向上し、エージェントのタスクあたりコストは11.9%削減
- Haiku + Opusアドバイザーの組み合わせはBrowseComp基準で41.2%となり、Haiku単独(19.7%)の2倍以上の性能を記録し、Sonnet単独比でコストは85%削減
- advisor_20260301 ツールをMessages APIリクエストで宣言すると、単一の /v1/messages リクエスト内でモデルのハンドオフが完了し、追加の往復リクエストやコンテキスト管理なしで動作
- アドバイザートークンはアドバイザーモデルの料金、実行者トークンは実行者モデルの料金でそれぞれ個別課金されるため、コストの追跡と制御が可能な構造
アドバイザー戦略の概要
- SonnetまたはHaikuが実行者としてタスクを最初から最後まで実行し、ツール呼び出し・結果の読み取り・反復作業を担当
- 実行者が合理的に解決しにくい判断に到達すると、Opusにガイダンスを要求し、Opusは共有コンテキストを参照して計画・修正・中断シグナルのいずれかを返す
- アドバイザー(Opus)はツールを直接呼び出したり、ユーザー向け出力を生成したりせず、実行者へのガイダンスのみを提供
- この構造は、大規模なオーケストレーターモデルが作業を分解して小型ワーカーモデルへ委任する従来のサブエージェントパターンを反転させた形で、別個のワーカープールやオーケストレーションロジックなしに動作
- フロンティア級の推論は実行者が必要とする時にだけ適用され、それ以外の実行区間は実行者モデルのコストに抑えられる
性能評価結果
- Sonnet + Opusアドバイザーの組み合わせはSWE-bench MultilingualでSonnet単独比2.7ポイント向上、エージェントのタスクあたりコストは11.9%削減
- BrowseComp、Terminal-Bench 2.0 ベンチマークでもSonnet単独比でスコアが向上し、タスクあたりコストは削減
- Haiku + Opusアドバイザー: BrowseCompスコア 41.2% — Haiku単独(19.7%)の2倍以上
- Sonnet単独比ではスコアは29%低いが、タスクあたりコストは85%削減
- アドバイザー追加によりHaiku単独比ではコスト増となるが、組み合わせたコストは依然としてSonnetより大幅に低い水準
Advisor Toolの使い方
- advisor_20260301 をMessages APIリクエストで宣言すると、単一の /v1/messages リクエスト内でモデルのハンドオフが完了 — 追加の往復リクエストやコンテキスト管理は不要
- 実行者モデルがアドバイザーを呼ぶタイミングを自律的に判断し、キュレーションされたコンテキストがアドバイザーモデルへ渡され、計画が返される
- max_uses パラメータで、リクエストごとのアドバイザー呼び出し回数上限を設定可能
- アドバイザートークンはusageブロックに別途報告されるため、ティア別の支出追跡が可能
- 既存ツール(ウェブ検索、コード実行など)と同じループ内で併用可能
response = client.messages.create(
model="claude-sonnet-4-6", # executor
tools=[
{
"type": "advisor_20260301",
"name": "advisor",
"model": "claude-opus-4-6",
"max_uses": 3,
},
# ... your other tools
],
messages=[...]
)
料金体系
- アドバイザートークンはアドバイザーモデル(Opus)の料金で課金され、実行者トークンは実行者モデル(Sonnet/Haiku)の料金で課金
- アドバイザーは短い計画(通常は400〜700テキストトークン)のみを生成し、全体の出力は実行者が低単価で処理するため、総コストはアドバイザーモデル単独実行と比べて大幅に低い水準を維持
ユーザーフィードバック
- Eve Legal MLエンジニア: "Haiku 4.5が複雑さに応じてOpus 4.6を参照し、動的に知能を拡張。フロンティアモデル級の品質を5分の1のコストで達成"
- Bolt CEO: "複雑なタスクではより良いアーキテクチャ判断を下し、単純なタスクではオーバーヘッドがない — 計画と実行トレースの差は明確"
- Genspark CTO: "エージェントターン、ツール呼び出し、総合スコアで明確な改善 — 自社開発のプランニングツールより優れた結果"
はじめに
- 現在Claude Platformでベータ提供中
- 開始手順:
- ベータ機能ヘッダーを追加:
anthropic-beta: advisor-tool-2026-03-01
- Messages APIリクエストに
advisor_20260301 を追加
- ユースケースに合わせてシステムプロンプトを修正
- Sonnet単独 / Sonnet + Opusアドバイザー / Opus単独の3構成を、既存のeval suiteで比較実行することを推奨
1件のコメント
現時点では特別目新しいアイデアではありませんが、インターフェースシグネチャやワークフローを壊さずに実行できるという点で、良いやり方だと思います。