PMFの前にモデル・マーケット・フィット（Model-Market Fit）を確認しよう

AIスタートアップでは、プロダクト・マーケット・フィット（PMF） 以前に、現在のモデルの能力が市場の要求を実際に解決できるかどうか、すなわち モデル・マーケット・フィット（MMF） の確認が必須
GPT-4のリリース以降、リーガルAI市場は爆発的に成長し、Claude 3.5 Sonnetのリリース以降はコーディングアシスタントが実際の ワークフローとして定着した事例 が、MMF達成の代表例
数学的証明、高リスク金融分析、自律的な創薬開発などの領域は市場需要こそ存在するものの、モデル能力が閾値を超えていないため、MMFが不在の状態
Human-in-the-loop が補助手段ではなく、人間が補完ではなく中核作業そのものを代行しなければならないなら、それはMMFが存在しないと解釈できる
AI戦略の核心は、MMF → PMF → 成功 の順序を認識し、いつ・何を構築すべきかを冷静に判断することにある

Marc Andreessenのフレームワークと新たな変数

2007年、Marc Andreessenはスタートアップの3要素（チーム、プロダクト、市場）のうち、市場が最も重要 だとするエッセイを発表
- 優れた市場はプロダクトをスタートアップの外へと引っ張り出し、プロダクトは偉大である必要はなく、基本的に動作 しさえすれば十分だというもの
それから19年が経った今、市場が実際に何かを引き寄せられるかどうかを左右する新たな変数として、モデルが登場 した
AIスタートアップには、プロダクト・マーケット・フィット以前に、現在のモデル能力が市場の求める仕事をこなせるか という先行条件が存在する
MMFが存在すればAndreessenのフレームワークが機能して市場がプロダクトを引っ張るが、存在しなければ、どれほど優れたUX、GTM戦略、エンジニアリングがあっても顧客採用は起こせない

MMFが解放されたときに起こる市場爆発の事例

リーガルAI: GPT-4（2023年3月）
- GPT-4以前のリーガルテックAIは スケール拡大に失敗 しており、文書レビュー用ツールは削減できる工数以上に人間の監督を必要としていた
- BERTなど既存のトランスフォーマーモデルは、文書分類や契約タイプ識別といった 分類タスクには強み があった一方で、法務業務の中核である 生成と推論は実行不能 だった
  - 契約書を「雇用」や「NDA」に分類することはできても、カリフォルニア法の下で競業避止条項がなぜ執行不能なのかを説明する一貫したブリーフの作成は不可能だった
- GPT-4の登場後18か月の間に、シリコンバレーのスタートアップは数億ドルを調達し、Thomson Reutersは Casetextを6億5,000万ドルで買収、数十社のリーガルAIスタートアップが新たに登場
- リーガルAI市場は、それ以前の10年間全体よりも わずか12か月で多くのユニコーンを生み出した
- 市場需要は以前から存在しており、変わったのは モデル能力が閾値を超えた という事実だけだった
コーディング: Claude 3.5 Sonnet（2024年6月）
- GitHub Copilotなどのコーディングアシスタントは以前から存在していたが、ときどき役立つ自動補完と、コードベースを本当に理解するAI の間には明確な差があった
- Claude 3.5 Sonnet以前にCursorを使ったときは興味深いデモ止まりで、日常的なワークフローとして定着しなかった
- Sonnetの登場後は1週間でCursorなしでは作業できなくなり、コードベース全体を理解する存在と ペアプログラミングしている感覚 へと変わった
- Cursorの成長が垂直に立ち上がった理由は機能革新ではなく、基盤モデルが実用閾値を超えたから だった
パターン分析
- 核心は MMFの有無 であり、勝者となったスタートアップは常に最初のプレイヤーではなく、モデル能力の閾値を超える瞬間に備えて 準備できていたチーム だった
- コーディングと法務の両分野で、既存事業者が勝った例はなく、常に新しいプレイヤーが市場を制した
- 現在先頭を走るリーガルAIスタートアップは、弁護士の実務フロー、求められる出力形式、規制要件、アソシエイトの調査方法などを 事前に数か月かけて蓄積 していた
- 勝敗を分けるのは先行者かどうかではなく、MMF成立後にPMFへ最初に到達した側 である

MMFが存在しないときに起こる問題

数学的証明
- 数学者たちは 新しい定理を証明 できるAIを望んでおり、研究機関・防衛契約企業・テック企業は 真の数学的推論 に数百万ドルを支払う意思がある
- しかし最先端のモデルですら、これを 一貫して実行できず、既知の証明の検証や機械的ステップの補助、限定的な問題への示唆提供にとどまっている
- 未解決問題に対する新しい証明の生成は不可能な状態で、GPT-5・o1・o3など世代ごとに漸進的な改善はあったものの、未解決予想に対して厳密な証明を期待できる段階ではない
高リスク金融
- 投資銀行やヘッジファンドは包括的な金融分析を行うAIを切望しており、単一の成功した取引やM&A案件でも 数億ドルの手数料 を生みうる
- しかしAIは中核タスクで依然として 驚くほど低い性能 を示している
  - 複雑な金融モデルを扱う際には、Excelの出力ですら信頼しがたいレベル
  - 200ページに及ぶ文書を読み、定量分析と定性インサイトを組み合わせる作業は、AIにとって最大級の難関 である
- 人間のアナリストは、アーニングコール、規制開示、業界レポートを読み、それをスプレッドシートモデルと統合して投資判断を下すが、AIはこのワークフローの一部しか処理できない
- 人間がループ内に残っているのは監督のためではなく、なお中核的な意思決定者が必要だから である
ベンチマーク格差
- Vals.aiのベンチマーク比較では、MMFが存在するバーティカルとそうでないバーティカルの性能差が 鮮明に表れた
- LegalBench（法的推論タスク）: 最高モデル 87%の精度、Gemini 3 Proが87.04%で首位、多くのモデルが85%以上を記録
  - 軽いレビューだけで弁護士が出力を信頼できる 本番運用レベルの性能
- Finance Agent（中核的な金融アナリスト業務）: 最高モデル 56.55%の精度、GPT-5.1がかろうじて半分を超え、Claude Sonnet 4.5 extended thinkingは55.32%
- 約 30ポイントの差 があり、法務分野にはMMFが存在する一方、金融分野には存在しない
- 現時点でリーガルAI製品は投入可能だが、アナリストの 実務そのものを担う金融AI製品 は近いうちに可能になるかもしれないものの、今はまだ不可能
自律的な創薬開発
- 製薬業界はAIベースの創薬に 数十億ドルを投資 しており、単一の成功した新薬は数百億ドル規模の価値を持ちうる
- AIは候補分子の特定、タンパク質構造予測（AlphaFoldの革新）、臨床試験設計の最適化など、個別工程の加速 には貢献している
- しかし現在のバリュエーションを正当化できるほどの エンドツーエンドの自律創薬 は存在しない
- 人間がループ内に残っているのはワークフロー設計上の選択ではなく、AIがまだ実作業を担えないから である

MMF不在の見分け方

MMF不在を見極めるうえで最も信頼できるシグナルは、human-in-the-loopがどんな役割に置かれているか を見ること
MMFが存在する場合、human-in-the-loopは機能として働き、品質維持・信頼構築・エッジケース対応を担う
- AIが中核作業を行い、人間は監督と承認を与える
MMFが存在しない場合、human-in-the-loopは 松葉杖 に近く、AIが中核作業を行えていない事実を隠している
- 人間は拡張ではなく 補完役 を担い、人間を取り除くと製品は即座に動かなくなる
単純な判断基準はこうだ。このワークフローから人間によるすべての修正を取り除いても、顧客は料金を払うだろうか
- もし答えがノーならMMFはなく、残るのは デモだけ だ

戦略的ジレンマ: 今のために作るのか、未来のために作るのか?

待つ場合の論拠
- 現在MMFが存在しない状況でスタートアップを立ち上げることは、他社のロードマップ上にあるモデル改善に賭ける という選択である
- その能力がいつ到来するかはコントロールできず、AnthropicやOpenAIが意思決定を進める間にも ランウェイは削られ続ける
- 必要な能力そのものに対する見立てが間違っている可能性もある
  - バーティカルが必要とする80%と99%の精度の差は、5年後まで埋まらないかもしれず、想定した形では 最後まで埋まらない可能性すらある
- AGIを信じるなら、モデルはいずれほぼあらゆる仕事をこなせるようになるかもしれないが、重要なのは可能性ではなく時期である
  - AIが問題を解けるかではなく、それまで スタートアップが生き残れるか が焦点であり、つまりランウェイの問題だ
早く始める場合の論拠
- Y Combinatorでよく語られる反論があり、これは十分に説得力がある
- MMFが解放される瞬間に必要なのは、モデル能力だけではない
  - ドメイン特化のデータパイプライン
  - 規制当局との関係
  - 長年かけて積み上げた顧客信頼
  - 深く組み込まれたワークフロー
  - 専門家が実際にどう働くかへの理解
- リーガルスタートアップはGPT-4を単に後付けしたのではなく、事前に足場を構築 しており、モデルが現れた瞬間に即実行できる状態にあった
- 問題に最も近いチームほど、モデルの評価基準、ファインチューニングの方向性、デプロイ方法に 直接的な影響力 を持つ
  - 受動的に能力の到来を待つのではなく、そのバーティカルにおいて何が能力なのかを定義する役割を果たす
解決策
- 核心的な問いは早く始めるべきかどうかではなく、どれほど早く始めるか、そして待っている間に 何を構築するか である
- 最も危険なのは 中間地帯 だ
  - MMFが24〜36か月後に到達しそうに見える状態
  - 今にも来そうに感じるが、複数回の資金調達ラウンドを消費するには十分に遠い距離
- この領域では 確信とランウェイがすべてを決める
  - 2年以上先のMMFに賭けるなら、それだけ待つ価値がある 巨大市場 でなければならない
- ヘルスケアと金融サービスは、現時点で成果が分かれていても、AnthropicとOpenAIが全力投資する 兆ドル規模の市場 である
  - 潜在的なアップサイドが大きいため、早期ポジショニングが正当化される
- 判断式はシンプルだ
  期待値 = MMF到達確率 × 市場規模 × 想定シェア

MMFの測り方

プロダクト・マーケット・フィットは正確に測るのが難しいことで知られ、Andreessenはこれを定性的に説明した
- 「PMFが起きていないときはいつでも感じ取れるし、起きたときも 必ず感じ取れる」
MMFも本質的には直感的な概念だが、より 明確な基準で具体化できる
MMFテスト
- 核心的な問い: モデルが人間の専門家と同じ入力を受けたとき、相当量の人手による修正なしに、顧客がお金を払いたくなる出力を生み出せるか
- 3つの構成要素
  - 1. 同じ入力
    - モデルは人間が受け取るのと同じ文書、データ、コンテキストを入力として使う
    - 実際のワークフローでは提供できない魔法のような前処理は許されない
  - 2. 顧客がお金を払う出力
    - デモや概念実証ではなく、実際の問題を解決する 本番品質の成果物
  - 3. 相当量の人手修正なしに
    - 人間がレビュー・修正・承認してもよいが、出力の50%を書き直さなければならないなら、モデルが仕事をしているとは言いにくい
80/99ギャップ
- 規制のないバーティカルでは、80%の精度でも十分な場合がある
  - マーケティングコピーの下書きを作るAIなら、人間が大幅に編集しても価値を生める
- 規制産業のバーティカル（金融、法務、ヘルスケア）では、80%の精度は事実上無用 である
  - 重要条項の20%を見落とす契約レビュー・ツールは、弁護士を助けるのではなく 責任リスクを生む
  - 5回に1回間違う医療診断は製品ではなく 訴訟リスク だ
- 80%と99%の精度の差は、実務ではしばしば無限大に近い
  - 「有望なデモ」と「本番システム」を分ける決定的な違い
- 多くのAIスタートアップはこのギャップに閉じ込められたまま、デモで資金を調達しつつ、製品が 本当に動くようになる能力 を待っている

エージェント的閾値

MMFの議論で見落とされがちな第二の能力フロンティアは、長期間にわたって自律的に作業できる能力 である
現在MMFが成立している事例（法務文書レビュー、コーディング支援）は、本質的に 短い時間軸のタスク である
- プロンプト入力後に出力し、数回のツール呼び出しを経て、秒または分単位で有用な結果を生み出す
しかし、最も価値の高い知的労働はこの形では動かない
- 金融アナリストは単一の質問に答えるのではなく、数日かけてモデルを構築し、前提をストレステストし、数十の情報源を統合する
- 戦略コンサルタントは1枚のスライドを作るのではなく、数週間にわたる調査、インタビュー、分析を繰り返す
- 創薬研究者は単一の実験ではなく、数か月に及ぶキャンペーン を設計し実行する
こうしたワークフローは、モデルがまだ信頼性高く実行できない能力を必要とし、その核心は 継続的な自律運用 にある
エージェント的閾値は、単に「ツールを使えるか」という問題ではない
- 持続性: 目標とコンテキストを数時間から数日にわたって保持できるか
- 回復: 失敗を認識し、原因を診断したうえで別のアプローチを試せるか
- 調整: 複雑な目標をサブタスクに分解し、順番に実行できるか
- 判断: 続行すべき時点と、止まって人間の指示を求めるべき時点を区別できるか
今日のエージェントは 分単位の作業 まではこなせるが、次の段階のエージェントは 日単位の作業 を担えなければならない
- これは漸進的な性能改善ではなく、能力そのものの位相変化 である
金融分野が「文書をよく読める」と評価されながらもMMFがない理由
- 10-Kを読むのは30秒の仕事だが、投資仮説の構築は 数日に及ぶワークフロー である
- データ収集、モデル構築、シナリオテスト、結論の統合まで、一貫した推論を全工程で維持しなければならない
次のMMF解放の波は、より賢いモデルだけでなく、数日間にわたって同じ仕事を自律的に遂行できるモデルから始まる

構造的な核心ポイント

Andreessenの核心的な洞察は、市場がチームやプロダクトより重要である理由が、優れた市場はプロダクトをスタートアップの外へ 引っ張り出すから だという点にある
AIにおける必然的な帰結は、その重力的な引力が働き始める前提条件が モデル能力 だということ
どれだけ大きく切実な市場であっても、動かないプロダクトは引っ張れない
- AIにおける「動かない」の基準を決めるのはエンジニアリングやデザインではなく、モデルそのもの である
- どれほど美しいインターフェース、洗練されたワークフロー、精巧なデータパイプラインを備えていても、基盤モデルが中核タスクを実行できなければ すべて無意味 になる
MMF → PMF → 成功 という順序を飛ばすと、第二段階は成立しない
創業者にとってこれは、能力が実際にどこまで来ているのかと、どこまで来ていてほしいのかを区別し、容赦なく正直である必要 があることを意味する
投資家にとっては、市場規模やチームの質だけでなく、現在のモデル能力と 市場要求とのギャップ を評価しなければならないことを意味する
AIを作るすべての人に残される問いは、市場がそれを望んでいるかではなく、モデルがそれを実際に提供できるか である
それだけが唯一重要なことだ

PMFの前にモデル・マーケット・フィット（Model-Market Fit）を確認しよう

Marc Andreessenのフレームワークと新たな変数

MMFが解放されたときに起こる市場爆発の事例

リーガルAI: GPT-4（2023年3月）

コーディング: Claude 3.5 Sonnet（2024年6月）

パターン分析

MMFが存在しないときに起こる問題

数学的証明

高リスク金融

ベンチマーク格差

自律的な創薬開発

MMF不在の見分け方

戦略的ジレンマ: 今のために作るのか、未来のために作るのか?

待つ場合の論拠

早く始める場合の論拠

解決策

MMFの測り方

MMFテスト

80/99ギャップ

エージェント的閾値

構造的な核心ポイント

関連記事

1件のコメント