4 ポイント 投稿者 GN⁺ 2025-08-29 | 1件のコメント | WhatsAppで共有
  • 業界でよく語られる主張とは異なり、AI推論コストは思ったより安く、むしろ高い収益性を確保しうる
  • 分析によれば、入力トークンのコストは事実上無視できる水準(100万トークンあたり約$0.005)である一方、出力トークンのコストは100万トークンあたり約$3以上と、1000倍の差が生じる
  • コンシューマー向けサブスクリプションプラン(例: ChatGPT Pro $20/月)は実際の推論原価に対して5~6倍、開発者向けプラン(Claude Code)は10~20倍で、採算性が非常に高い
  • API料金体系は原価に対して80~95%以上のマージンを残し、ソフトウェアに近い水準の収益構造を形成している
  • 結局、推論は「金食い虫」ではなく、入力に対する出力の不均衡な構造をうまく活用する場合、非常に収益性の高いビジネスである

序論

  • AI、とりわけ**推論(inference)**が莫大なコストを生むという主張があるが、これに懐疑的な立場から経済性の分析が必要
    • 著者は大規模フロンティアモデルの運用経験はないが、クラウドサービスの高スループットや、ハイパースケーラーと比較したベアメタルのコスト構造についての理解をもとにしている
  • 分析は概算レベル(napkin math)で、純粋な計算コストに焦点を当てる
    • H100 GPU単体のコストは1時間あたり$2と設定しており、実際の大手AI企業はこれより安く調達できる可能性がある

前提

  • 分析は純粋な計算コストにのみ焦点を当て、モデル改善なしで現在のモデルの有用性に基づく持続可能性を検証
    • DeepSeek R1アーキテクチャ(総パラメータ671B、アクティブ37B)を使用し、Claude Sonnet 4およびGPT-5に近い性能を仮定

H100を活用した本番環境

  • 本番設定: H100 GPU 72基のクラスター、コストは1時間あたり$144
    • バッチサイズ32、8 GPUごとのテンソル並列処理で9つのモデルインスタンスを同時実行
  • プレフィル段階(入力処理): H100の3.35TB/s HBM帯域幅を基準に、1秒あたり45回のフォワードパスを処理
    • 1バッチあたり32シーケンス(平均1,000トークン)として、1秒あたり144万入力トークン、1時間あたり468億入力トークンを処理
    • MoEモデルではエキスパートルーティングによりスループットが30~50%低下する可能性があるが、効率的な並列処理により影響は最小限
  • デコード段階(出力生成): 逐次的なトークン生成により、1秒あたり1,440出力トークン、1時間あたり4,670万出力トークン
  • トークンあたりの純コスト計算
    • 入力トークン: $144 ÷ 46.8億 = 100万トークンあたり$0.003程度
    • 出力トークン: $144 ÷ 4,670万 = 100万トークンあたり$3.08程度
      • 非対称性: 入力処理に対する出力生成のコスト差は約1000倍

計算ボトルネック

  • 一般にはメモリ帯域幅がボトルネックだが、128k+の長いコンテキストシーケンスではアテンション計算がボトルネックとなり、コストは2~10倍に増加
    • Claude Codeは200kトークン制限により、安価なメモリ中心の体制を維持し、高コストな計算中心シナリオを回避
    • 長いコンテキストウィンドウに追加料金が課されるのは、こうした経済的変化を反映している

実際のユーザー経済性

  • コンシューマー料金プラン($20/月 ChatGPT Pro): 1日10万トークン(70%入力、30%出力)で、実コストは約$3/月
    • OpenAIのマージンは5~6倍
  • 開発者利用(Claude Code Max 5, $100/月): 1日200万入力、3万出力トークンで、実コストは約$4.92/月、マージンは20.3倍
    • Max 10($200/月): 1日1,000万入力、10万出力トークンで、実コストは約$16.89/月、マージンは11.8倍
    • コーディングエージェントは入力中心(安価)な利用パターンにより経済性を最大化する
  • API収益マージン: 現在の価格(100万トークンあたり$3/15)に対し実コスト($0.01/3)で、80~95%のマージン

結論

  • この分析はいくつかの前提に基づいており、誤差の可能性はあるが、3倍の差を見込んでも収益性は高い
    • 入力処理は100万トークンあたり$0.005と安く、出力生成は$3+で1000倍の差がある
  • 入力トークンと出力トークンの非対称なコスト構造が核心であり、これをうまく活用するサービスは高い収益性を実現できる
    • 入力比率が高いワークロード(コーディング支援、文書分析、研究など)→ ほぼ無料に近い原価構造で、非常に高い収益性
    • 出力比率が高いワークロード(例: 動画生成)→ 入力は少なく出力は数百万トークンに及び、コスト構造が不利なため高価格政策が避けられない
  • 「AI推論は持続不可能なほど高い」という主張は、実際の原価構造と一致しない。これは既存大手事業者による競争抑制戦略である可能性がある。実際のマージン構造はすでに非常に強固である
  • 過去にクラウドコンピューティングのコスト誇張がビッグテックの超過利益を正当化したように、推論コストをめぐる議論でも**過度な「コスト恐怖マーケティング」**が機能するリスクがある
    • 原価構造について事実ベースで向き合う必要がある

1件のコメント

 
GN⁺ 2025-08-29
Hacker Newsの意見
  • この記事の数学的計算はさまざまな点で間違っている

    • 特に prefill段階 が帯域幅に縛られているという仮定は誤り

    • 著者が計算したMFUを展開すると13 PFLOPS/sになり、これは実際のハードウェア 最大性能の7倍 なので不可能な数値

    • 同時リクエスト32件、GPU 8台制限、attention演算だけがボトルネックという仮定などもすべて誤った前提

    • HNでこの記事を批判している人たちが、根本的な誤りではなく細部だけを指摘しているのは残念

    • この記事が正しいなら、OpenAIやAnthropicが推論で損をしているという主張も根拠が弱い

    • 出力トークンのコスト部分も大きく間違っている

      • 実際には 強力なGPUクラスター さえあれば、大規模モデルを安価にデコードできる
      • 例として4か月前時点で100万出力トークンあたり0.2ドル程度で、その後 B200 GPU とコード最適化でもっと安くなった
    • 数学が間違っているという指摘はありがたいが、ならば 正確な数値 もあわせて示してくれると期待値の調整に役立つと思う

  • 私は何度もモデリングしてきたが、GPUの減価償却と リソース活用の最適化 次第では、推論は50%以上のマージンが可能だと見ている

    • ただしモデル 学習コストを含めるか どうかで結果は大きく変わる

    • 学習費を資産計上しなければマージンは良いが、減価償却して含めると収益性は急激に悪化する

    • なぜ学習を除外するのかという疑問がある

      • モデルは何年も使うものではなく、競争力を維持するには数か月ごとに再学習しなければならない
    • 大規模AI研究所なら高いマージンが可能だが、一般企業は違う

      • たとえばDeepSeekチームの公開資料を見ると、8x H200 SXMでvLLMを使って約12K tok/sが出ている
      • しかし100K〜200K tok/sを処理するにはGPUが大量に必要で、その大半は 遊休状態 のままになる
      • したがって、100%稼働率、入力処理は無料、ネットワークボトルネックなしといった仮定は現実的ではない
    • GPUを5年で減価償却するとしても、市場シェア低下 によって稼働率が落ちれば致命的になりうる

    • 学習費はIFRS/GAAP基準でも売上に直接帰属するコストなので、結局は 売上原価 に含まれざるを得ない

  • Sam Altmanは「我々は推論では利益を出しており、学習費だけを除けば非常に収益性が高い」と述べていた

    • Amodeiも同様に、モデル1つを1社と見れば、学習費1億ドルに対して売上2億ドルで モデル単位では黒字 だと説明していた

    • ただし同時に、より高価な次世代モデルを学習しているため、会社全体では赤字構造になるということ

    • しかし「学習費を除けば黒字」という言い方は、実質的にほぼすべての企業に当てはまる ありきたりな表現 であり、大きな意味はない

    • 実際にはOpenAIがスタートアップに投資し、クレジットを提供しながら 資金を循環させる 構造になっているため、本当の収益性を把握しにくい

    • NYTのポッドキャストによると、Samが「推論だけを見れば黒字だ」と話した際、隣にいたCOOが 曖昧な反応 を見せたという

      • つまり実際には、まだ推論だけでも完全な黒字ではない可能性がある
  • 記事で主張されているほど推論が安いのなら、なぜ 超低価格のAPIプロバイダー がもっと多くないのか疑問

    • 現実には、ほとんどの低価格プロバイダーは小型モデルしか動かしていない

    • だとすれば、なぜ DeepSeek-R1 のような大型モデルを安く使えないのか気になる

    • 実際にはすでに複数のAPIプロバイダーがあり、無料でDeepSeek-R1 を提供しているところさえある

    • DeepInfraのようなところもあり、実際の価格は記事で推定されているものよりさらに安い

    • しかしモデル学習、インフラ構築、人件費など 莫大な固定費 があるため、単純な推論単価だけでは収益性を説明できない

    • 自分で600Bモデルを動かすにはGPUに数万ドルが必要で、その大半は 遊休状態 となるため非効率

      • だからこそ、モデルプロバイダーがGPUを集約して 共有インフラ として提供するのが合理的
  • GPUアーキテクチャの経験者として見ると、長いコンテキストではattention演算が 理論上は O(n²) で増えるが

    • 実際のボトルネックは メモリ転送速度
    • たとえばHBM 2+TB/sでもコアあたりの必要帯域を満たすのは難しく、競合まで考慮するとボトルネックは数千倍深刻になる
  • この記事はDeepSeek R1を基準に計算しているが、DeepSeekは 異常なほど効率的 なので、OpenAI/Anthropicのコスト推定には適していない

    • DeepSeekの効率性は MoEとMLA attention によるもの

      • しかしOpenAIやGoogleも、すでにかなり前から同様の最適化を適用している可能性が高い
      • GPT OSSは fp4 まで使っているが、DeepSeekはまだそうではない
    • DeepSeekが市場を揺るがした理由は、推論効率よりも 学習費500万ドル という主張にあった

    • 実際にGPT-5やClaude 4がDeepSeekより効率が低いと見るのは難しい

    • Amodeiも、DeepSeekは単に 予想されていたコスト低減曲線 の一部にすぎないと述べていた

      • つまり、革新的なブレークスルーというより、中国企業が先にそれを示した点が特別だったということ
  • 記事で示された1日あたりのトークン数値は低すぎる

    • 私は1日平均 3億〜8億トークン を使い、同僚たちも1.5億〜6億トークン程度使っている
    • また プロンプトキャッシュ が考慮されていないが、これは推論量を85〜95%減らしてくれる
    • モデルとKVキャッシュにどの 量子化方式 を使うかも明記しなければ、正確な計算はできない
  • ChatGPT Proの価格についての言及も誤っている

    • 実際には 月額200ドル で、Sam Altmanが自ら「我々はProサブスクリプションで損をしている」と明かしたことがある

    • 人々が予想よりはるかに多く使うためだ

    • しかし最近では「我々は推論で黒字だ」とも語っている

      • ただし非上場企業なので、どの発言が真実に近いのかは分かりにくい
    • 個人的には、Samの発言を 信用していない

      • 「我々の製品には大きな価値がある」というマーケティング発言に近いと感じる
    • 実際には 上位10%のユーザー が使用量の大半を占めるパワー則分布になっている可能性が高い

      • そのため、Proサブスクリプションは赤字になる構造かもしれない
  • 最近の報告によると、Anthropicは 60%マージン、OpenAIは無料ユーザー込みで 50%マージン 程度だという

    • speculative decoding、キャッシュなどによりコストはさらに下がる

    • 記事で仮定されている370億パラメータも、実際のモデル規模とは合っていない

    • ただしマージンだけでは全体像は分からない

      • AzureやAWSが 大規模割引 を提供している可能性が高い
  • Sam Altmanは複数のインタビューで「学習費さえ除けば黒字だ」と繰り返し話していた

    • これを根拠に、「OpenAIはリクエストごとに損をしている」という主張は誤りだと見る人もいる
    • しかし学習が無料なら誰でもできるのだから、それ自体は意味のない仮定だ
    • Dario Amodeiも、モデル単位で見れば結局は黒字だと説明していた
    • ただしSamの発言は 投資家を説得するため のものかもしれず、実際の収益性は不透明だ