訓練できないもの

(saranormous.substack.com)

5 ポイント投稿者 GN⁺ 4 시간 전 | まだコメントはありません。 | WhatsAppで共有

2026年半ば、投資家の間で「AI精神病」的な絶望論が広がっており、モデルがあらゆることをより上手くこなすようになれば、その上に築かれた企業はすべて吸収される薄いラッパーにすぎない、という論理が中核にある
最初のAI SWEだったDevinは2024年に標準ベンチマーク課題の13%しか解けなかったが、1年半で最高のエージェントが80%台後半に到達し、測定可能な領域からモデルが急速に浸食している
測定可能なものは訓練対象となってcommodityに転落するが、私的で検証コストの高い正解はリーダーボードから読み取れない
真の価値はlicense・liability・責任の所在のようなモデルが届かない領域にあり、ボトルネックは知能ではなく権限(permission)と説明責任(accountability)
知能が安くなるほど価値はモデルが到達できない少数のポジションへ移動し、「訓練不可能な領域(untrainable)」 が最終的なmoatになる

投資家の絶望論とその論理

2026年半ばの投資家版絶望論とは、投資すべき対象がないという認識であり、AnthropicとNvidiaにだけ資金を入れて手を引くべきだという空気感を指す
モデルがすべてをより上手くこなすようになれば、その上に築かれたあらゆる会社は吸収を待つ**薄いラッパー(thin wrapper)**であり、生き残る価値はcomputeとfrontier weightsだけだ、という論理である
- この論理が最も強く依拠する事例がソフトウェア分野だ

ソフトウェアが示す本当の教訓

Devinは2024年の公開当時、標準的なソフトウェアベンチマークの課題の13%しか解けず、概ね無視されていたが、1年半後には最高のエージェントが80%台後半に到達し、Goldman SachsとU.S. Armyの内部で実務をこなしている
ほとんど全員が「モデルがソフトウェアエンジニアリングを飲み込んだ」という誤った教訓を導き出したが、エンジニアリングは常に測定に抵抗してきたし、最も測定しやすい部分だけが唯一重要な部分ではない
MITのMert Demirerと共著者らは10万人超の開発者を対象に定量化し、最新のcoding agentが書かれるコード量を約180%、実際にデプロイされた量を約30%増やしたと示した
- コードを書くことは安くなったが、残りは依然として人間を経由しており、その部分が重要である

測定可能なものは訓練対象になる

ベンチマークは測定可能なものであり、測定可能なものは訓練で攻略できる。だからこそcoding agentが最初に成熟した
- compilerとtest suiteは無料の検証器(free verifier)として機能し、答えが自分自身を点検できるため、通るまで回し続けられる
しかし、テストに通ったからといって、その変更が10年物のコードベースにとって正しい選択かどうかはわからない
- モジュールが存在する文書化されていない3つの理由、誰も作成を認めないcron jobで維持されているデプロイパイプラインなどは、リーダーボードからは読み取れない
複雑なシステムの正しさは、現実世界で十分長く動かしてみて初めてわかるものであり、より賢いモデルでも世界をより速く回すことはできない
- OpenAIの推論モデルを切り開いたNoam Brownは、1年単位でエージェントを評価する唯一確実な方法は、それを1年間動かしてみることかもしれないと述べている

組織の速度でしか動かないもの

Gabe Pereyraによれば、真の自動化とはモデル改善だけでなく、product・model・workflow・firmが一緒に動くことであり、このうち3つは組織の速度で動く
ベンチマークが届かない部分とは、人を動かすこと、つまり懐疑的なパートナーの働き方を変えたり、再構築の過程でチームを維持したりすることだ
- CEO採用では分析能力と同じくらい人を扱う能力が重視され、より賢いモデルになってもこの重みづけは変わらない
すべての会社が全エンジニアにfrontier coding modelを持たせたが、その速度で**エンジニアリング組織(eng org)**を変えられた会社は一つもない
- 導入は1四半期で終わったが、再構築には何年もかかっている

読める仕事は去りつつある

リーダーボードに載せられるものは、やがて訓練で攻略可能になる。したがって、測定可能なあらゆる仕事はすでにcommodity化へ向かっており、その方向は戻らない
RipplingのMatt MacInnisの比喩のように、一般的な質問に答えるtokenはどのモデルでも答えられるためほとんど無価値だが、会社データを推論するtokenははるかに価値が高い
読める仕事は上下両方向から浸食されている
- 下からは課題が飽和し、買い手は「どのモデルか」ではなく「いくらか」を問うようになり、その週に最も安いopen/distilled modelへ落ちていく
- 上からは、labがretrieval・routing・tool use・reasoning policyなど**モデルを包んでいた装置(scaffolding)**をweightsの中へ取り込むabsorption frontierを進めている
マージン圧力は逆方向にも働く。汎用エージェントは何にでも備える必要があるため高コストだが、集中型アプリケーションは1つのworkflowをtokenコストの一部だけで回るように調整し、その差益を直接取れる

2x2と「訓練不可能な領域」

すべての仕事には2つの問いを立てられる。正確さが私的で、その確立コストが高いか。そして、入れないシステムの中に閉じ込められているか
これを課題の飽和度と掛け合わせると、2x2の構図ができる
- 飽和 + 公開された正解 = commodity token、open modelが占める
- frontier + 公開された正解(coding benchmarkがここにある) = labが勝つ。評価が無料なら所有は無意味だ
- 最後の象限 = 正確さが私的にしか存在しないfrontier作業、これがuntrainableである
inference cloudでは、AI-nativeの先進企業が圧倒的多数のtokenを汎用open modelではなくcustom modelで生成していることからも確認できる
最後の象限へ入る壁の高さはさまざまだ
- 個人開発者のtoy codebaseは移植可能で標準化されており、参入障壁は低い
- 銀行の本番システムはそのどちらでもなく、SWE-Bench Verifiedで2%賢くなってもroot権限は手に入らない

ボトルネックは知能ではなく権限と責任

より優れたモデルでも**私的な正解(private ground truth)**を公開情報にはできないし、licenseを保有したり、liabilityに署名したり、会社のファイルを所有したり、答えが間違っていたときに訴えられる当事者になったりはできない
- ボトルネックは知能ではなくpermissionとaccountabilityである
その扉(door)にはlockとdeadboltがある
- lockは環境であり、セキュリティレビュー・統合・結果に自らの名を賭ける契約を通じて信頼を得て初めて、AIの有用性をシステム内部で検証できる
- deadboltはユーザーであり、多くの米国の医師が毎日OpenEvidenceを開く習慣は、どんなcomputeでも買うことはできない
明日、完璧な医療モデルを訓練できたとしても、医師の習慣やUCSFの意思決定フローに入り込む道はない。信頼は関係とユーザーの同意の上にゆっくり積み上がる

その仕事自体の本質

アプリケーションがuntrainableな象限に居場所を得る道は派手ではない。つまり、会社の私的な現実をモデルが扱えるように**整える(arrange)**こと、行動するための道具を持たせること、顧客と一緒に人員の現実を変えていくことだ
- 翻訳(translation)をもたらす会社は複製しにくく、その翻訳は終わらない
- 統合と保守は関係が続く限り続き、ドメイン特化エンジニアとツールを顧客のそばに置くチームが勝つ
事例: 大手ローファームのM&A
- 最上位のwhite-shoeローファームでは、M&A部門の1部門だけで年間約1,000件のディールを処理しており、何百人ものアソシエイトがそれぞれのclient fileをデスクトップにダウンロードして汎用エージェントで見せることはできない
  - 守秘義務などさまざまな理由があり、たとえ可能でも得られるのは1人の修正を1回ずつ拾った断片にすぎず、ディール全体の流れは見えない
- 意味のあるシグナルは**ディール単位(level of the deal)**に存在し、ディールには形がある
  - M&AはNDA・term sheet・diligence・purchase agreement・ancillaries・closing checklist
  - IP litigationはmotion・discovery・prior art・追加のmotion
  - practice areaごとに固有であり、弁護士もツールも相互互換ではない
- ローファームが実際に解いている問題はその1つ上の階層、すべてのpractice areaを並行して回すこと、トップパートナーが数百件を同時に回しながら新規案件を取り込み、アソシエイトを育成するやり方である
  - こうしたローファームの変革はevalに使える単一の課題ではなく、極めて曖昧な中間目標と不完全なフィードバック、非常に長い期間、止まらない環境の中で**オペレーター(operator)**が精密に運用しなければならない

読みにくい価値は売りにくくもある

外からはAIが業務を変えるかどうかを会社自身ですらわからないため、最も強いビジネスは外部証明をやめて内部に入り込み、結果(outcome)に価格をつける
Sierraはエージェントが顧客問題をresolveしたときに課金し、人間に引き継いだ場合は課金しない。価格そのものが評価となり、これはSierraがresolvedの定義を所有しているから成立する
CognitionのDevinもソフトウェアで同様にperformance guaranteeを提示しており、信頼されたシステム内部の結果に対してのみ可能なやり方である

token提供も純粋なcommodityではない

純粋なcommodityと呼ばれていたtoken提供でさえ、そのようには振る舞っていない。最高のAI-native企業は提供先を**1〜2社(BasetenまたはFireworks)**に集中させている
- tokenあたりのコストは予定どおりcommodity化しているが、実トラフィック下でのreliabilityや希少なcomputeへの保証付きアクセスはそうではない
- どこで提供するかは、どのモデルを使うかとは別の選択であり、inferenceでcommodityのように振る舞う部分は**価格(price)**だけだ

labが供給者だという反論

よくある反論は、labは供給者なのだから、自社製品を原価以下で運用して他社を枯らしたり、APIアクセスを取り消したりして市場を直接奪える、というものだ。これが絶望論の本当のバージョンである
しかしこの論理は、モデル層が単一プレイヤーゲームである場合にしか成り立たない。だが実際は明らかにそうではない
- 半年遅れの国際プレイヤーも加わった「3.5者デスマッチ」に近く、開発リーグは昨年の5倍の規模になっている
- 顧客は供給者間の競争を望んでおり、labも特定の1アプリケーションを潰すことより**市場シェア(market share)**を欲している
lab同士が正面から競争する市場では、これが観察できる。consumer chatでは最高のモデルが単純に勝ったことはない
- ChatGPTは数年にわたる実際の競争の中で首位を維持しており、今失っているシェアは、より良いモデルにではなく、AndroidとSearchに支えられたGeminiへ移っている
- prediction marketとインターネット上の空気では最高モデルと見なされるAnthropicも、consumer chatではほとんど存在感を持てず、enterpriseとcodingで事業を築いている
- 最も中核的なアプリケーションでさえ、より良いモデルが競合のユーザーを奪えないのなら、病院記録や銀行の責任を統合だけで突破することはできない

何が良い答えかを定義する権利

外部から採点できないなら、内部の誰かが何が良い答えかを決めなければならず、その決定こそがゲーム全体である
- そうした決定が十分に蓄積され記録されればbenchmarkになる。Harveyは法務向けを、Sierraはvoice agent向けを公開している
- ある分野でgoodを定義する権利は、すでにその分野で使われる主体になることで得られ、彼らは実導入の苦闘を通じてその権利を獲得した
実際にお金を分ける評価は私的で、firmごとに異なる。この会社がこの種の案件で何を良い仕事として受け入れるかであり、法の深さはどんな公開テストも圧倒するため、決して完結しない
これは測定ではなく、**何が真で何が良いかについての判断(judgment)**であり、記録されて標準となる。そしてfoundation labはどれほど賢くてもそれを記述できない
- その地位は分野の内部にしか存在せず、権威はもともとあった場所に落ち着く
- 法務benchmarkはシニア弁護士が、安全な臨床回答の定義は医師が、resolvedの意味はすでに顧客を所有している会社が決める

絶えず再度underwriteしなければならない防衛戦

より多くの仕事が測定可能になるにつれ、absorption frontierは上がり続け、測定可能になったものは食われる
untrainableな土地は、その上に立つ者の足元から縮んでいく。安全地帯に安住はできず、まだ採点されていない場所へと足を移し続け、絶えずre-underwriteしなければならない
狭い課題で私的データと独自evalによりfrontierまで訓練すれば、その地点で汎用モデルに勝てる。そしてその特化モデルがmoatの一部になる
逆に汎用モデルで競争するのは、最も多くのcomputeを持つ側に負けるcapital warであり、アクセスが浅く課題が読みやすい会社の罠である
- 生き残るために汎用領域でfrontierを超える訓練をすると決めたその日、勝者はデータセンター規模で決まり、結末は独立チャンピオンではなくcomputeの豊富な側への売却になる

より難しい攻撃: 何を作るべきか

ここまでの話はすべて防御であり、より難しいのは、そもそも何を作るべきかを選ぶという攻撃で、年に3回くらいしか見つからない
モデルはここでは役に立たない。指されたものは何でもやるが、何を指す価値があるかは教えてくれず、benchmark化できない以上、訓練もできない
- これが既存の強者がすべてを取れない理由であり、次のものは他人より先に使い道を見つけた誰かから出てくる
- もしかすると**意図(intent)**はcomputeより希少な入力かもしれない

結論: 歴史を持つ価値

絶望論は半分だけ正しい。薄いラッパーの層は実際に吸収されつつあり、今日会社に見えるものの多くは実際に薄いラッパーである
- ただし、それが何を残すかについては間違っている。吸収のメカニズムは明らかだが、最終的な到達点は不明である
知能はこれからも安くなり、価値はモデルが届かない少数の場所へ滑っていく。この場所こそがuntrainableであり、関係・信頼・蓄積された判断のように時間を通じて積み上がり、訓練では複製できない**「歴史を持つ価値(value with history)」**である
だから知能そのものを所有しようとするのではなく、正解がその分野の内部にしか存在しない領域の中へ入らなければならない("get inside one")
- 会社の私的現実をモデルが扱えるように整える、派手ではない翻訳(translation)の仕事を自ら行うこと
- その分野で何が**good(良い答え)**なのかを記録し、基準を定義する主体になることが核心である。この席は空いておらず、自分がやらなければ誰かが必ず取る
今年もっとも多く引用されたbenchmarkスコアは自慢ではなく警告であり、まもなく無価値になる領土の地図であると同時に、何がgoodかを語る権利をまもなく失う者への通知でもある
- 公開で測定可能になったということは、まもなく公共財(commodity)になるというシグナルであり、公開採点は誰でも追いつけるため、そのスコアで1位を取った主体でさえgoodの基準を定義する権利を失う

訓練できないもの

投資家の絶望論とその論理

ソフトウェアが示す本当の教訓

測定可能なものは訓練対象になる

組織の速度でしか動かないもの

読める仕事は去りつつある

2x2と「訓練不可能な領域」

ボトルネックは知能ではなく権限と責任

その仕事自体の本質

事例: 大手ローファームのM&A

読みにくい価値は売りにくくもある

token提供も純粋なcommodityではない

labが供給者だという反論

何が良い答えかを定義する権利

絶えず再度underwriteしなければならない防衛戦

より難しい攻撃: 何を作るべきか

結論: 歴史を持つ価値

関連記事

まだコメントはありません。