36 ポイント 投稿者 ragingwind 7 일 전 | 2件のコメント | WhatsAppで共有

Y Combinator代表のGarry Tanが、自身のAIエージェント運用経験をもとに提案した「Skillify」というエージェント品質管理手法についての文章です。1億6,000万ドルを調達したLangChainのようなフレームワークはテストツールを提供しているものの、「何をどの順番でテストするか」というワークフローが欠けている、という問題意識から出発しています。Tanは、エージェントが犯したミスを一回限りのプロンプト修正ではなく、Markdownのスキルファイル、決定論的スクリプト、自動テストから成る恒久的な構造物へ変換する10段階のチェックリストを提示します。

主要な概念

  • Skillifyとは: エージェントの失敗が発生したとき、その失敗を再現不可能にする「スキル」(Markdown手順書 + 決定論的スクリプト + テスト)へ変換する行為を指します。会話中に「skillify it」と言うと、エージェントが10段階のプロセスを自動で実行します。
  • LatentとDeterministicの区別: 判断が必要な作業(latent、LLM推論領域)と、精密さが必要な作業(deterministic、コード実行領域)を明確に分けます。タイムゾーン計算やカレンダー検索のように、コードなら即座に答えられる仕事をLLMが「頭の中で」処理して間違えることが、根本的なバグだと見なしています。
  • 10段階チェックリスト: SKILL.mdの作成、決定論的スクリプトの作成、ユニットテスト(vitest)、統合テスト、LLM評価(LLM-as-judge)、リゾルバートリガー登録、リゾルバー評価、到達可能性/重複監査、E2Eスモークテスト、ブレインファイリング規則まで、すべて通過して初めて「スキル」と認められます。

実例

  • 10年前のシンガポール出張日程を尋ねたところ、エージェントがライブAPIを5分間呼び出した末に、ローカルですでにインデックス化されていた3,146件のカレンダーファイルからすぐ見つけられたはずのデータを後になって発見した事例
  • 「次の会議まで28分後」と答えたものの、実際には88分後だった事例 — UTCからPTへのタイムゾーン変換をLLMが暗算し、ちょうど1時間分ずれていた
  • いずれのケースでも既存スクリプト(100ms以内に実行)が正答を持っていたにもかかわらず、エージェントがスクリプトを実行せず推論を選んだことが原因でした。

差別化ポイント

  • LangChainが「テストツール一式」の提供にとどまっていたのに対し、Skillifyは「失敗 → スキル → テスト → 恒久修正」という思想を持つワークフローそのものを提示します。フレームワークがジムの会員権だけを渡すものだとすれば、Skillifyはトレーニングメニュー表に相当する、という比喩です。
  • Nous ResearchのHermes Agentはスキルの自動生成には優れているものの、テストがないため時間が経つとスキルが劣化すると指摘し、「生成 + 検証」の両方が必要だと強調します。

示唆

  • ソフトウェアエンジニアリングでは「すべてのバグに回帰テストを付ける」という原則が2005年にはすでに確立していた一方で、AIエージェント分野はまだその水準に達していないことをあらためて示しています。エージェントのスキルもコードベースと同様に、テストなしでは劣化するという見方は、業界全体に有効な警鐘として読めます。
  • 40個以上のスキルを運用する中で、その15%がリゾルバーに登録されず「闇の中の機能」になっていた事例は、エージェントシステムが規模を持つと発見可能性(discoverability)の管理が不可欠な課題になることを示しています。

2件のコメント

 
tested 7 일 전

グレッサー
> 対話中に「skillify it」と言うと、エージェントが10段階のプロセスを自動で実行します。

それを実行してくれるスキルはどこで入手できますか?

 
heyjude 7 일 전

Skillifyスキルは、gbrainに含まれている機能です。
https://github.com/garrytan/gbrain/…