AIスタートアップ200社をリバースエンジニアリングしたところ、73%は単なるプロンプトエンジニアリングに過ぎなかった
(pub.towardsai.net)- AIスタートアップ200社をリバースエンジニアリングした結果、多くの企業が独自技術を保有していると主張しながら、実際には外部APIを呼び出す形で運営されていた
- 調査対象企業の73%がOpenAIやClaude APIをそのまま利用しており、そこに単純なUIや機能を付け足した程度であることが確認された
- 自社の**「独自LLM」を掲げるスタートアップのかなりの数は、実際には
api.openai.comにリクエストを送るGPT-4ラッパーに過ぎず、単純なシステムプロンプトを載せただけの構成で数十〜数百倍のマージン**を上乗せして販売していた - RAGアーキテクチャを強調するサービスの大半も、OpenAI
text-embedding-ada-002・Pinecone/Weaviate・GPT-4を組み合わせた標準的な40行のスタックを「独自インフラ」として包装しており、1Mクエリ基準で月約3万ドルのコストに対し15万〜50万ドルの売上という80〜94%のマージン構造を示していた - 逆に全体の27%は、「Built on GPT-4」のようにスタックを透明に明かすラッパー企業、実際に独自モデルを学習するビルダー、マルチモデル投票・エージェントフレームワークなど実際の技術的差別化要素を持つチームで構成されていた
- 調査の結果、多くのAIスタートアップがAPIベースのサービスビジネスであるにもかかわらず「独自AIインフラ」を掲げている構図が明らかになり、投資家・顧客・開発者の誰でもDevToolsでネットワークタブを開くだけで検証可能である点を強調しつつ、AIエコシステムには誠実な技術開示が必要だと強調している
概要
- 外部投資を受けたAIスタートアップ200社のWebアプリケーションを対象に、ネットワークトラフィック・コード・API呼び出しを追跡し、マーケティング上の主張と実際の技術スタックの差を分析した
- 出発点は、「独自のディープラーニングインフラ」を主張するある企業が、実際にはOpenAI APIしか呼び出していないのではないかという疑いだった
- この企業は430万ドルの投資を受けており、「根本的に異なるインフラを構築した」というストーリーで資金調達を進めていた
- 調査の結果、73%の企業で主張する技術と実装の実態の間に意味のある乖離が見つかり、かなりの数がサードパーティ製モデルAPIを単純にラップした構成だった
- 調査対象はYC・Product Hunt・LinkedInの「We’re hiring」投稿などから集めたAIスタートアップ200社で、設立6か月未満の企業は除外し、外部資金調達と具体的な技術的主張がある企業に集中した
- 調査方法は受動的なブラウザ開発者ツールの範囲で行われ、非公開システムへのアクセス・認証回避・TOS違反なしに進められた
調査方法(Methodology)
- Playwright・aiohttpなどを用いて自動化された分析パイプラインを構築し、各スタートアップのサイトについて共通して3つを収集した
capture_network_traffic(url)でネットワークヘッダーとリクエストパターンをキャプチャextract_javascript(url)でJSバンドルのデコンパイルおよび分析monitor_requests(url, duration=60)で60秒間のAPI呼び出しパターンを追跡
- 各サイトごとに次の情報を構造化して記録した
claimed_tech: マーケティングコピー・Web文言に現れる技術的主張actual_tech: HTTPヘッダー・JSバンドル・API呼び出しから確認した実際のスタックapi_fingerprints: 呼び出しドメイン・ヘッダー・遅延時間などから抽出したサードパーティAPIのフィンガープリント
- クロール期間は3週間で、すべてのパターンは公開WebおよびブラウザのDevToolsで観測可能な公開データのみを利用した
主な結果: 73%で明らかになった乖離
- 全200社のうち73%の企業で、マーケティングコピーに書かれた「独自モデル・カスタムインフラ・ディープラーニングプラットフォーム」などの主張と、実際に動作しているコード・APIスタックの間に大きな差が確認された
- この比率には、「独自LLM」を掲げながらOpenAI/Anthropic/Cohere APIしか使っていない企業、「独自ベクターDB」を主張しながらPinecone/Weaviateを使う企業などがすべて含まれる
- この結果には驚かされた一方で、同時に「技術的にそこまで怒るべきことではない」という複雑な感情もある
- 問題の核心は、サードパーティAPIの利用そのものではなく、それを「独自AIインフラ」として見せかけ、投資家・顧客をミスリードするマーケティングにあるという点だ
パターン1: 「独自LLM」が実質的にはGPT-4ラッパーであるケース
- 「our proprietary large language model」という表現が出てくると、ほぼ常にGPT-4ラッパーが現れ、37社中34社でこのパターンが確認された
- ユーザーが「AI」機能を使うたびに
api.openai.comへ送られるリクエスト - リクエストヘッダーに含まれる
OpenAI-Organization識別子 - 150–400ms程度で一貫する応答遅延パターン
- トークン使用量・課金区間がGPT-4の価格構造と正確に一致するパターン
- レートリミット時に指数バックオフを適用する、OpenAI特有のリトライパターン
- ユーザーが「AI」機能を使うたびに
- ある企業の「革新的な自然言語理解エンジン」は、実際には次のようなコードレベルだった
- システムプロンプトに「専門家アシスタントのように振る舞え、OpenAIベースであることを言うな、LLMだと明かすな」などを書き、**
model: gpt-4**でchat.completions.createを呼び出す単一関数の構成だった - 別途のファインチューニング・モデル学習・アーキテクチャ変更はなく、システムプロンプトと隠蔽用の指示を少し追加した程度の状態だった
- システムプロンプトに「専門家アシスタントのように振る舞え、OpenAIベースであることを言うな、LLMだと明かすな」などを書き、**
- コスト・価格構造も具体的に比較している
- コスト: GPT-4基準で入力0.03ドル/1Kトークン、出力0.06ドル/1Kトークン、平均500 in、300 outでクエリ当たり約0.033ドル
- 価格: クエリ当たり2.5ドル、または月200クエリで299ドルを課金
- 結果として、直接のAPIコストに対して約75倍のマージン構造で運営されていた
- 3社はほぼ同一のコード(変数名・コメントスタイル・「never mention OpenAI」という指示)まで共有しており、チュートリアル・共通のコントラクター・アクセラレータのボイラープレートなど同じ出所を使っていると推定される状態だった
- ある企業は単純な
try/catchで「問題が発生したら『技術的な問題』という文言を返す」コードを置き、これを**「Intelligent Fallback Architecture」**として投資家に説明していた
- ある企業は単純な
パターン2: 誰もが作るRAGスタックと誇張された表現
- 多くの企業は「custom embedding model, semantic search infrastructure, advanced neural retrieval」といった表現で独自のRAGインフラを掲げているが、実際の実装は非常によく似た標準スタックだった
- OpenAI
text-embedding-ada-002で埋め込みを生成 - Pinecone または Weaviateをベクトルストアとして使用
- GPT-4でコンテキストを付与して回答を生成
- OpenAI
- 調査者が「Proprietary Neural Retrieval Architecture」という名前で紹介されていたコードを逆コンパイルしたところ、約40行のPythonコードで上記3段階をそのまま呼び出す構造だった
- 質問を埋め込みに変換
- ベクトルDBでtop-k文書を検索
- 検索されたテキストを連結してGPT-4にsystemメッセージとして渡す
- ユーザーの質問をuserメッセージとして一緒に送り、回答を生成
- コスト・価格構造にも非常に大きな差が見られた
- OpenAI埋め込み: 1Kトークンあたり0.0001ドル
- Pineconeクエリ: 呼び出しあたり0.00004ドル
- GPT-4 completion: 1Kトークンあたり0.03ドル
- 合算するとクエリあたり約0.002ドル水準のコスト
- 実際の顧客課金はクエリあたり0.5〜2ドルで、APIコスト比で250〜1000倍のマージンが発生する構造
- 42社がこれとほぼ同一のスタックとコード構造を使っており、さらに23社が90%以上類似したパターンを共有していた
- 違いは主にPineconeとWeaviateのどちらを選ぶか、変数名、Redisキャッシュを追加しているかどうか程度だった
- Redisキャッシュを付けてそれを**「optimization engine」、再試行ロジックを付けてそれを「Intelligent Failure Recovery System」**のような名前でマーケティングする事例も見られた
- 月100万クエリ規模のスタートアップの採算性も試算している
- コスト: 埋め込み約100ドル、Pineconeホスティング約40ドル、GPT-4 completion約3万ドル、合計約3万140ドル/月
- 売上: 15万〜50万ドル/月
- 80〜94%水準の高い売上総利益率を持つビジネス構造
パターン3: 「自社でファインチューニングした」の実際の意味
- 「自社でモデルをファインチューニングした」と表現する企業についてインフラを追跡した結果、大きく2つの類型に分かれた
- 少数派(約7%)は実際にAWS SageMaker、Google Vertex AIなどを通じて独自の学習ジョブを回し、S3バケットにモデルアーティファクトを保存したうえで、別個の推論エンドポイントとGPUインスタンス監視を運用しているケース
- 多数派はOpenAIのfine-tuning APIを使っており、実態としては「OpenAIにサンプルデータとプロンプトを渡して保存するレベル」に近い構造だった
- 前者(実際に自前学習している場合)は学習インフラやデプロイパイプラインがブラウザから観察できる範囲でもある程度見えるが、後者はほとんどが単一のOpenAIエンドポイント呼び出しとして表れる点が異なる
ラッパー企業を素早く見分ける方法
-
ネットワークトラフィックのパターン
- ブラウザでDevTools(F12) → Networkタブを開き、サービスのAI機能を使っている間に送信されるリクエストを見ると、簡単に見分けられる
api.openai.comapi.anthropic.comapi.cohere.ai- などのドメインが直接現れれば、基本的にサードパーティモデルAPIラッパーと見てよい
- 応答遅延時間もフィンガープリントとして機能する
- とくにOpenAI APIでは200〜350ms帯に応答が集中する特有のレイテンシパターンがあり、これによってバックエンドモデルを推定できる
- ブラウザでDevTools(F12) → Networkタブを開き、サービスのAI機能を使っている間に送信されるリクエストを見ると、簡単に見分けられる
-
JavaScriptバンドルとキー露出
- ページソースやJSバンドルを検索し、次のキーワードを探すのも簡単な方法
openai,anthropic,claude,cohere,sk-proj-(OpenAIプロジェクトキーのプレフィックス) など
- 調査の過程で12社がAPIキーをフロントエンドコードにそのまま含めたまま配布しており、これについて通報メールを送ったが、どの企業からも返答はなかった
- ページソースやJSバンドルを検索し、次のキーワードを探すのも簡単な方法
-
マーケティング言語マトリクス
- マーケティングコピーに現れる言葉と実際の技術実装とのパターンを表形式で整理し、「Marketing Language Matrix」と表現している
- 「GPUインスタンスタイプ、サービングアーキテクチャ、モデルサイズ」など具体的な技術用語が登場する場合、実際にある程度独自のインフラを持っている可能性がより高かった
- 逆に「advanced AI」「next-gen intelligence」「proprietary neural engine」のような抽象的なバズワードばかり繰り返されるほど、中身はサードパーティAPIラッパーである可能性が高かった
- マーケティングコピーに現れる言葉と実際の技術実装とのパターンを表形式で整理し、「Marketing Language Matrix」と表現している
インフラの現実地図とAIスタートアップの地形
- 記事では複数のダイアグラムを通じて、現在のAIスタートアップのインフラ現実地図を整理している
- 多くのスタートアップがOpenAI・Anthropic・Cohereなどのモデル提供者の上に薄いアプリケーション層を載せた形で存在している構造
- 各レイヤーの上に「ワークフロー・UX・ドメインデータ・パイプライン」などで差別化を試みるサービスが積み重なっている構造
- このような構造を踏まえると、AIスタートアップのかなりの部分は実質的にサービス/プラットフォームビジネスであり、「独自AIインフラ企業」という自己認識との乖離がある状態だ
なぜこの問題を気にすべきなのか
- 「うまく動くなら関係ないのではないか」という問いに対して、調査者は4つの利害関係者の観点から理由を整理している
- 投資家: 現在かなりの数の企業に投じられている資金は、AI研究・モデル開発ではなく、実質的にはプロンプトエンジニアリングとワークフローレイヤーに投入されている
- 顧客: 実際のAPIコストに10倍以上のプレミアムを上乗せした価格を支払っており、似た機能を週末プロジェクトレベルで自作できる場合も多い
- 開発者: 表向きの「AIスタートアップ」の華やかさに比べ、実際には参入障壁の低いラッパーサービスであることが多く、自分でも似たものを短期間で作れると認識する必要がある
- エコシステム: 「AI企業」の73%が技術を誇張・ミスリードしている状況は、全体としてバブルに近い状態を意味し、不健全なインセンティブを生む
ラッパースペクトラム: すべてのラッパーが悪いわけではない
- 「Wrapper Spectrum」という図を通じて、ラッパー企業にも質的に異なる層があることを説明している
- 一方の端には、単にサードパーティAPIに薄いUIを被せただけのレベルのラッパーがある
- もう一方の端には、ドメイン特化ワークフロー・優れたUX・モデルオーケストレーション・価値あるデータパイプラインなどを提供する高度なラッパーがある
- 重要なメッセージは「ラッパーかどうか」ではなく、誠実さ・価値提供の方法にある
- サードパーティAPIを使いながらもそれを透明に開示し、問題解決・体験・データで差別化を作る企業は肯定的に評価されている
きちんとやっている27%
-
Category 1: 透明なラッパー(Transparent Wrappers)
- このグループの企業は、ホームページに 「Built on GPT-4」 のような文言を明示し、自分たちが販売しているのは ワークフロー・UX・ドメイン知識 であることをはっきり示している
- 例: GPT-4 + 法務テンプレートの組み合わせで 法務文書の自動化 を提供するサービス
- 例: Claudeベースで カスタマーサポートのチケットルーティング に特化したサービス
- 例: 複数モデルと ヒューマンレビューのプロセス を組み合わせたコンテンツワークフローサービス
- このグループの企業は、ホームページに 「Built on GPT-4」 のような文言を明示し、自分たちが販売しているのは ワークフロー・UX・ドメイン知識 であることをはっきり示している
-
Category 2: 本物のビルダー(Real Builders)
- このグループは実際に 独自モデルを学習 している企業群である
- 医療分野でHIPAA準拠のために セルフホスティングモデル を運用するヘルスケアAI
- 金融分析向けに カスタムリスクモデル を学習・運用するサービス
- 産業オートメーションで 特殊なコンピュータビジョンモデル を開発・展開するサービス
- このグループは実際に 独自モデルを学習 している企業群である
-
Category 3: 革新的な組み合わせ(Innovators)
- ここにはサードパーティモデルを使いながら、その上に 実質的に新しい構造 を積み上げた企業が含まれる
- 複数モデルの出力を組み合わせ、投票ベースの精度向上 を実現したシステム
- メモリ・エージェントフレームワーク を作り、複雑なタスクを実行するシステム
- 新しい形の 検索アーキテクチャ を導入した事例
- これらの企業は自分たちのアーキテクチャを詳しく説明でき、実際に 自ら構築した構造 を持っているという共通点がある
- ここにはサードパーティモデルを使いながら、その上に 実質的に新しい構造 を積み上げた企業が含まれる
学んだこと: スタックより問題、そして誠実さ
- 3週間の調査結果は、次のように要約できる
- 技術スタックそのものより、解決しようとしている問題 の方が重要であり、実際に最も優れた製品のかなりの部分は「単なるラッパー」と呼べる構造だった
- ただし、誠実さは別次元で重要 であり、賢いラッパーと詐欺的なラッパーの違いは 透明性 にある
- AIゴールドラッシュは、「独自AI」を求める投資家・顧客の期待によって、虚偽の主張をするよう圧力をかけるインセンティブ を生み出している
- そして APIの上に構築すること自体は恥ではなく、問題はそれを隠して「独自のニューラルネットワークアーキテクチャ」と装う行為にある
評価フレームワークと実践的アドバイス
-
48時間複製可能性テスト
- すべての「AIスタートアップ」を評価するシンプルな基準を提案している
- 「彼らの中核技術を48時間以内に複製できるか?」
- できるのであれば、技術的にはラッパーに当たり、
- スタックを正直に明かしているなら問題ない企業
- 「独自AIインフラ」を主張して隠しているなら避けるべき企業と見るべきだという考え方だ
- すべての「AIスタートアップ」を評価するシンプルな基準を提案している
-
創業者へのアドバイス
- 創業者には次のような原則を提案している
- スタックについて 正直に公開 すること
- UX・データ・ドメイン専門性 で競争すること
- 作っていないものを作ったと主張しないこと
- 「Built with GPT-4」は弱みではなく 誠実な説明 だと受け入れること
- 創業者には次のような原則を提案している
-
投資家へのアドバイス
- 投資家には次の検証ポイントを示している
- アーキテクチャ図 を求めること
- OpenAI・AnthropicなどのAPI請求書 を求めて実際の依存度を確認すること
- ラッパー企業はラッパー企業として 適切にバリュエーション すること
- 正直にスタックを開示するチームに インセンティブで報いる こと
- 投資家には次の検証ポイントを示している
-
顧客へのアドバイス
- 顧客には以下のような実践項目を提案している
- ブラウザで Networkタブ を開いて送信されるリクエストを確認すること
- インフラとモデルの使い方について 直接質問 すること
- API呼び出しに不要な 10倍以上のマークアップ を払っていないか見直すこと
- 技術的な主張ではなく 実際の結果と問題解決能力 を基準に評価すること
- 顧客には以下のような実践項目を提案している
「AIスタートアップ」の実体を一言で要約すると
- 「大半の『AIスタートアップ』は 人件費の代わりにAPI費用を使うサービスビジネス に近い」
- これは誤ったビジネスモデルではなく、そのまま認めて 正直に説明すべき現実 である
調査後の展開と反応
- 1週目: 当初は20〜30%程度がサードパーティAPIを使っていると予想していたが、結果ははるかに大きかったと述べている
- 2週目: ある創業者は調査者に「どうやってうちの本番環境に入ったんだ」と尋ね、調査者は ブラウザのNetworkタブを見ただけ だと説明した
- 3週目: 2社が調査結果を 削除してほしいと要請 したが、記事では特定企業名を公開しておらず、今もその状態を維持していると明かしている
- 昨日: あるVCが次の取締役会の前にポートフォリオ企業を 監査(audit) してほしいと依頼し、調査者はこれを引き受けたと述べている
データ・ツール公開計画
- 今回の研究をもとに 方法論とツールを公開 する計画である
-
GitHubで公開予定の内容(無料)
- 完全な スクレイピングインフラのコード
- APIフィンガープリントを抽出する手法
- 誰でも実行できる 検知スクリプト
- 主要AI APIごとの 応答時間パターン 集
-
詳細分析(メンバー限定)
- 月 3,300万ドルの評価額を受けた「AIユニコーン」 が、実際には月 1,200ドルのOpenAI費用 しか使っていないケース
- 「1億パラメータモデル」と紹介しながら、実際には システムプロンプト3つ で構成されている構造
- 公開状態で配信されている本番コード(クライアント側、匿名化スニペット)
- ラッパーを即座に見抜く 5つの質問フレームワーク
- 投資家向けプレゼンテーションと実際のインフラを 比較したケーススタディ
最後のメッセージと「正直なAI時代」の必要性
- 調査は 企業名を公開せずパターンだけを共有 する形で進められ、市場は最終的に 透明性に報いる はずだという信念を強調している
- 実際に 18社 は本当の意味で新しい技術を作っていることが確認されており、
- それらに対しては 「自分が何者かを分かっているのだから、そのまま作り続けてほしい」 という応援のメッセージを送っている
- 調査後、7人の創業者 が個人的に連絡してきており、
- 一部は防御的で、一部は感謝し、3人は「proprietary AI」から「best-in-class APIsの上に構築」へと マーケティング転換を支援する方法 を尋ねた
- ある創業者は「自分たちが嘘をついていることは分かっていた。投資家がそれを期待していたし、みんなそうしている。今となってはどうやってやめればいいのか」と打ち明けたという
- 記事の最後では、AIゴールドラッシュは終わらないだろうが 正直の時代が始まるべきだ とあらためて強調し、誰でもDevToolsの Networkタブ(F12) を開けば自分で真実を確認できるとまとめている
4件のコメント
コメントに「著者の実在自体が疑わしい。データの出所も不明確で、ネットワークトラフィックを勝手にキャプチャすることもできない。基本的な検証が必要だ」というものがありますが、私も同感です。
Mediumのプロフィールに書かれているLinkedInのリンクも存在しないページにつながっていて、そもそも実在しない人物のように思えます。11月25日にGPT-4oでもなくGPT-4をずっと言及しているのも不自然です。
サブスクリプション決済システムまで組み込んで収益化するほどの開発者が、AI APIとの通信をサーバーではなくクライアント側に実装して、こんなに簡単に検知されるというのも……信じがたいですね。
エージェントを作ろうとしてみると、プロンプトエンジニアリングはAIを活用した非常に優れた生産性を持つアプリケーションだと見えてきます。
Hacker Newsの意見
2023年は毎週のようにプロンプトデモを見せられる年だった
AWSのイベントでも、登壇者がClaudeを開いてランダムなプロンプトを打ち込むだけで1時間を埋めていた
私たちのチームも6か月間「エージェント」を作ると言ってツール、コネクタ、評価システムをつなぎ込んだが、結局またプロンプトエンジニアリングへ回帰した
昔メンターが「技術で専門家とは、他人より一つ二つ多く知っている人のことだ」と言っていた
だから今のプロンプトエンジニアリングブームも自然な流れだと思う。新しい技術ほど、既存スタックに一つ二つ積み増す形で発展する
「ただのプロンプトエンジニアリングにすぎない」という言い方は、実際の高性能システム構築の難しさを過小評価している
評価指標の設計、ツール呼び出し、キャッシュなどは単なるプロンプトの範囲ではない。結果を示せるなら、資金調達は簡単だろう
2025年11月にGPT-4に言及する記事というのは疑わしい
ネットワークトラフィックでAIプロバイダーを判別したという方法論もおかしい。フロントエンドから直接APIを呼ぶならセキュリティキー露出の危険が大きいからだ
何かきな臭い調査手法だ
「ではいったい何をすべきなのか」という問いが出る
90年代にはコンソールシステムにUIを載せるだけでも立派なスタートアップのアイデアだった
実際、こうした現象はAI以前のスタートアップでもよくあった
既存技術を包んでUXだけ改善しても大金を稼げた。内部的にはオープンソースツールの組み合わせでも、利益率が高すぎて自前開発は無意味だった
ChatGPTのリリース直後からそう思っていた。
もしある会社が本当にAGIを持っているなら、それを売る理由はないだろう。そのまま自社サービスを作って競合を圧倒すればいい
LLMを作っている会社は数少なく、機能も似通っている
結局、自動化の核心はプロンプトエンジニアリングだ。
モバイルアプリのように、ビッグテックが本気を出せば簡単に複製できる。PerplexityやCursorも危うい
問題の記事そのものがAI生成コンテンツに見える
著者が本当にデータを分析したのか信頼しにくい
「この人はどうやってこんなデータを集めたのだろう」という疑問が大きい
私の会社なら、顧客データをこのように公開することはできない
それのどこが不誠実なんですかね(笑)