韓国人開発者が作ったオープンソースプロジェクト Ouroboros が、
最近公開された「AI-assisted discrete-event simulation」ベンチマークで総合1位を記録しました。
特に意義深いのは、同じ Claude Max 環境で実行されたにもかかわらず、Claude 自身の plan mode よりも良い結果を出した点です。
このベンチマークは単純なコーディング能力を見るテストではなく、AI エージェントが実際のシステムをどれだけ深く理解し、
モデリングし、実行可能なシミュレーション成果物まで作り出せるかを評価する高難度の課題でした。
課題は鉱山の輸送システムを対象としており、おおよそ次のような能力が求められました。
- 鉱山トラック、積載地点、荷下ろし地点、経路、待機列などシステム構造の理解
- 現実の複雑なプロセスを discrete-event simulation モデルとして抽象化
- どのイベントが発生し、どの状態が変化し、どの指標を測定するかの設計
- 実際に実行可能なシミュレーションコードの実装
- ボトルネック、スループット、待ち時間などの結果の解釈
- topology diagram、animation など人が理解しやすい成果物の生成
Ouroboros は Claude Code 内で ooo workflow として実行され、
提出物には単なるコード実装を超えて、鉱山トラックが鉱石を運搬するアニメーションや topology diagram まで含まれていました。
興味深いのは、実行中に MCP server が失敗したにもかかわらず、
Ouroboros が skills ベースのアプローチにフォールバックして良い結果を出した点です。
個人的には、この部分が特に意義深いと考えています。
実環境では AI ワークフローが常に理想的に動作するとは限らないため、
失敗したときに復旧し、別の経路で処理を継続する能力が重要だからです。
Ouroboros が目指している方向は、単に「AI にコードを書かせること」ではありません。
AI が問題を明確化し、計画を立て、実行し、失敗から復旧し、結果を評価し、
必要に応じて再び改善するワークフローを作ることです。
今回のベンチマークは、そのようなアプローチが実際の複雑な問題解決でも意味があることを示す良い検証だと思います。
もう一つ興味深かったのは、単に多くの指示や大きな skill を付けるやり方が、常に良い結果につながるわけではなかったことです。
今回の結果では、一部の fat skills ベースのアプローチ(たとえば superpowers)は基本の plan mode よりも低い性能を示し、
逆に Ouroboros のように問題定義、計画、実行、評価、復旧を構造化したワークフローのほうが、より良い結果を出しました。
個人的には、「韓国の開発者が作ったオープンソース AI ワークフローが
Anthropic の基本 plan mode を上回った事例」という点で誇らしく感じています。
ただし、より重要なのは、今後 AI エージェントが実際の問題を解決するために
どのような構造を持つべきかを示す小さな実験結果だということです。
- Ouroboros GitHub: https://github.com/Q00/ouroboros
- Benchmark: https://lnkd.in/dhGMsGVD
まだコメントはありません。