37 ポイント 投稿者 ragingwind 2026-04-22 | 2件のコメント | WhatsAppで共有

Y Combinator代表のGarry Tanが、自身のAIエージェント運用経験をもとに提案した「Skillify」というエージェント品質管理手法についての文章です。1億6,000万ドルを調達したLangChainのようなフレームワークはテストツールを提供しているものの、「何をどの順番でテストするのか」というワークフローが欠けている、という問題意識から出発しています。Tanは、エージェントが犯したミスを一時的なプロンプト修正ではなく、Markdownのスキルファイル、決定論的スクリプト、自動テストで構成された永続的な構造物へと変換する10段階のチェックリストを提示します。

中核概念

  • Skillifyとは: エージェントの失敗が発生した際、その失敗を再現不可能にする「スキル」(Markdown手順書 + 決定論的スクリプト + テスト)へ変換する行為を指します。会話中に「skillify it」と言うと、エージェントが10段階プロセスを自動で実行します。
  • Latent vs. Deterministic の区別: 判断が必要な作業(latent、LLM推論領域)と精密性が必要な作業(deterministic、コード実行領域)を明確に分けます。タイムゾーン計算やカレンダー検索のように、コードが即座に答えられる仕事をLLMが「頭の中で」処理して間違えることが、中核的なバグだと見なしています。
  • 10段階チェックリスト: SKILL.md作成、決定論的スクリプト作成、ユニットテスト(vitest)、統合テスト、LLM評価(LLM-as-judge)、リゾルバートリガー登録、リゾルバー評価、到達可能性/重複監査、E2Eスモークテスト、ブレインファイリング規則まで、すべて通過して初めて「スキル」と認められます。

実例

  • 10年前のシンガポール出張日程を尋ねたところ、エージェントがライブAPIを5分間呼び出した末に、ローカルですでにインデックス化されていた3,146個のカレンダーファイルからすぐ見つけられたはずのデータを後になって発見した事例
  • 「次の会議は28分後」と答えたものの、実際には88分後だった事例 — UTCからPTへのタイムゾーン変換をLLMが暗算し、ちょうど1時間ずれていた
  • どちらのケースでも既存スクリプト(100ms以内で実行)が正解を持っていたにもかかわらず、エージェントがスクリプトを実行せず推論を選んだことが原因でした。
広告

差別化ポイント

  • LangChainが「テストツール一式」を提供するにとどまっていたのに対し、Skillifyは「失敗 → スキル → テスト → 永続修正」という意見のあるワークフローそのものを提示します。フレームワークがジムの会員権だけを渡すものだとすれば、Skillifyはトレーニングメニュー表に相当する、という比喩です。
  • Nous ResearchのHermes Agentはスキルの自動生成は得意でもテストがないため、時間が経つとスキルが劣化すると指摘し、「生成 + 検証」の両方が必要だと強調しています。

示唆

  • ソフトウェアエンジニアリングで「すべてのバグに回帰テストを付ける」という原則は2005年にはすでに確立されていましたが、AIエージェント領域はまだその水準に達していないことを改めて示しています。エージェントスキルもコードベースと同様に、テストなしでは劣化するという視点は、業界全体に有効な警告として読めます。
  • 40個を超えるスキルを運用する中で、15%がリゾルバーに登録されず「闇の中の機能」になっていた事例は、エージェントシステムが規模を持つと発見可能性(discoverability)の管理が必須課題になることを示しています.

2件のコメント

 
tested 2026-04-22

グレッサー

対話中に「skillify it」と言うと、エージェントが10段階のプロセスを自動で実行します。

それを実行してくれるスキルはどこで入手できますか?

 
heyjude 2026-04-22

Skillifyスキルは、gbrainに含まれている機能です。
https://github.com/garrytan/gbrain/…