AIエージェントのスキル、ベンチマーク性能の半分も現実では出ない
(arxiv.org)UC Santa Barbara、MIT CSAIL、MIT-IBM Watson AI Labの研究チームによる、AIエージェントのスキル活用能力を現実的に評価した研究結果です。
研究チームはオープンソースから34,198件のスキル(ワークフロー、APIの使い方、ベストプラクティスなどの構造化知識)を収集してテストしました。既存ベンチマークのSKILLSBENCHは、エージェントにぴったり合うスキルをあらかじめ提供する理想的な条件で評価していたため、性能が誇張される問題がありました。
研究チームはこれを改善するため、6段階の現実的なシナリオを設計しました。
- スキルを直接提供
- エージェントが自らスキルを選択
- 無関係なスキルを混在
- 大規模なスキルプールから検索
- カスタムスキルがまったく存在しない場合
Claude Opus 4.6、Kimi K2.5、Qwen3.5-397B などの最新モデルを対象にテストした結果は次のとおりです。
-
Claude Opus 4.6 基準
- スキルを直接提供した場合: 55.4% の通過率
- 現実条件(大規模検索 + 選択): 40.1%
- カスタムスキルがない場合: 38.4%(スキル未使用のベースライン 35.4% とわずか 3%p の差)
-
弱いモデル(Kimi、Qwen)の場合、スキルを使うとむしろ性能がベースラインを下回る逆効果が現れました。
性能低下の主な原因
- スキル選別の失敗: カスタムスキルがあっても Claude は 49% しか正しく呼び出せない
- 検索精度の限界: 上位5件の中での関連スキル回収率(Recall@5)は最大 65.5% にとどまる
- 適応能力の不足: 類似スキルを状況に応じてうまく応用できない
改善の試みと結果
- 課題ごとにスキルを精製・生成する方法を適用すると、Claude の性能は 40.1% → 48.2% まで上がりましたが、初期検索で得たスキルがある程度関連している必要がありました。
- Vercel の研究のように、単に AGENTS.md のようなMarkdownファイルをコンテキストに入れる方式のほうが、より安定的だという意見も出ました。
結論と提言
現在のAIエージェントのスキルは、ベンチマーク上でのみ誇張された性能を示すにすぎず、実際の利用環境では効果が非常に限定的です。特に弱いモデルでは、スキルがむしろ妨げになる可能性があります。
研究チームは、より優れた検索手法、効果的なオフラインでのスキル精製戦略、モデルの能力に合ったスキルエコシステム設計が必要だと強調しました。論文とコードは GitHub で公開されています。
まだコメントはありません。