LLM評価の盲点：私たちはなぜ「行動」ではなく「知識」だけを見るのか？

(dev.to/johnonlee)

14 ポイント投稿者 johnonlee 2026-05-27 | 5件のコメント | WhatsAppで共有

• LLM評価はいまだに「SATの点数」にとどまっている — MMLU、HumanEval、SWE-benchはいずれも単一セッション・単一正解のパラダイムだ。実際のコーディングエージェントは複数セッションにまたがって作業し、ミスから学び、既存の慣習を読む。これは知識(knowledge)ではなく行動(behavior)の問題だ。

• 私たちは人を採用するとき、成績よりも「どう考えるか」を見る — LLM評価ではなぜそれをしないのか。今はすべてのモデルが90パーセンタイルを取る「GPA確認」の段階で止まっている。

• 同じバグを直してもアプローチはまったく異なる — Model Aは30秒でgrepしてパッチを当てる（プロトタイピング型）、Model Bは下位タスクに分解してから体系的に進める（アーキテクチャ型）、Model Cはgit logから先例を学んでから修正する（保守型）。3つともバグは直す。点数は同じだ。役割適合性はまったく異なる。

• 4つの行動観察次元の提案 — Decomposition（分解するか vs すぐ実行するか）、Approach（パターンを探すか vs 原理から推論するか）、Recovery（行き詰まったときに戦略を変えるか vs 押し切るか）、Consistency（似た問題に対して同じアプローチを示すか）。

知識評価 vs 行動評価

既存ベンチマーク	測定するもの	見落としているもの
MMLU	知識の記憶量	応用判断力、「知らないことの認知」
HumanEval	初回試行の合格率	デバッグ、反復、適応の過程
SWE-bench	パッチが通るかどうか	アプローチ経路、アーキテクチャ理解、クロスセッション学習

2026年、本当に必要な問い

コーディングエージェントがデモではなく実際のチームの道具になった今、私たちが投げるべき問いは「何点か」ではない:

「レガシー保守にはどのモデルが合うのか」
「ジュニアとのペアプログラミングに向くデバッグスタイルは何か」
「週単位で最も予測可能な行動を示すモデルは何か」

これはrole-fitの問いだ。採用の問いだ。私たちはまだSATの点数で答えようとしている。

フレームワークを完成形として提示してはいない。「私が間違っているなら訂正してほしい」という姿勢で、4つの仮定を明示的に開いたままコメントでの議論を促す。2026年4月のTang et al.による「In-Situ Behavioral Evaluation for LLM Fairness」論文も、似た方向性を示している。

5件のコメント

husky81 2026-05-28

そういえば、人を評価する大学入学共通テストも、行動ではなく知識だけを見ているんですよね

cronex 2026-05-27

一定のパターンを維持してくれればまだしも、使うたびに違うので……評価をどうすればいいのか分からなかったですね。

johnonlee 2026-05-27

その通りです。正解はありませんが、こういう方向からも一度見る必要があるように思います。今は1つのモデルに仕事を最初から最後までやらせていますが、明日は途中途中で各モデルが得意な領域だけを担当するような形に変化していくのではないかと思います。みんなが一生懸命学習すれば、ある程度は似たレベルの知識を持つようになるでしょうが、行動パターンによって成果物に違いが生まれることもありますからね。

b8g6pn 2026-05-27

正解はなく、人間の基準も正確で、リソースを少なく使うことが肝心なのだから、トークン量と達成水準で評価するのが適切ではないでしょうか。方法にまで口を出すと、本当に難しいですよね…

aliveornot 2026-05-27

間違った話ではないですが、答えはあるのでしょうか。実際の採用でもあれを点数化するのが難しいから、人もいったん採用して使ってみて、合わなければ切ったりするわけで……AIモデルを使っていて別のものに入れ替えるのと同じように。

LLM評価の盲点：私たちはなぜ「行動」ではなく「知識」だけを見るのか？

知識評価 vs 行動評価

2026年、本当に必要な問い

関連記事

5件のコメント