OpenAIとAnthropicは推論で本当に赤字を出しているのか

(martinalderson.com)

4 ポイント投稿者 GN⁺ 2025-08-29 | まだコメントはありません。 | WhatsAppで共有

業界でよく語られる主張とは異なり、AI推論コストは思ったより安く、むしろ高い収益性を確保しうる
分析によれば、入力トークンのコストは事実上無視できる水準（100万トークンあたり約$0.005）である一方、出力トークンのコストは100万トークンあたり約$3以上と、1000倍の差が生じる
コンシューマー向けサブスクリプションプラン（例: ChatGPT Pro $20/月）は実際の推論原価に対して5～6倍、開発者向けプラン（Claude Code）は10～20倍で、採算性が非常に高い
API料金体系は原価に対して80～95%以上のマージンを残し、ソフトウェアに近い水準の収益構造を形成している
結局、推論は「金食い虫」ではなく、入力に対する出力の不均衡な構造をうまく活用する場合、非常に収益性の高いビジネスである

序論

AI、とりわけ**推論（inference）**が莫大なコストを生むという主張があるが、これに懐疑的な立場から経済性の分析が必要
- 著者は大規模フロンティアモデルの運用経験はないが、クラウドサービスの高スループットや、ハイパースケーラーと比較したベアメタルのコスト構造についての理解をもとにしている
分析は概算レベル（napkin math）で、純粋な計算コストに焦点を当てる
- H100 GPU単体のコストは1時間あたり$2と設定しており、実際の大手AI企業はこれより安く調達できる可能性がある

分析は純粋な計算コストにのみ焦点を当て、モデル改善なしで現在のモデルの有用性に基づく持続可能性を検証
- DeepSeek R1アーキテクチャ（総パラメータ671B、アクティブ37B）を使用し、Claude Sonnet 4およびGPT-5に近い性能を仮定

本番設定: H100 GPU 72基のクラスター、コストは1時間あたり$144
- バッチサイズ32、8 GPUごとのテンソル並列処理で9つのモデルインスタンスを同時実行
プレフィル段階（入力処理）: H100の3.35TB/s HBM帯域幅を基準に、1秒あたり45回のフォワードパスを処理
- 1バッチあたり32シーケンス（平均1,000トークン）として、1秒あたり144万入力トークン、1時間あたり468億入力トークンを処理
- MoEモデルではエキスパートルーティングによりスループットが30～50%低下する可能性があるが、効率的な並列処理により影響は最小限
デコード段階（出力生成）: 逐次的なトークン生成により、1秒あたり1,440出力トークン、1時間あたり4,670万出力トークン
トークンあたりの純コスト計算
- 入力トークン: $144 ÷ 46.8億 = 100万トークンあたり$0.003程度
- 出力トークン: $144 ÷ 4,670万 = 100万トークンあたり$3.08程度
  - 非対称性: 入力処理に対する出力生成のコスト差は約1000倍

一般にはメモリ帯域幅がボトルネックだが、128k+の長いコンテキストシーケンスではアテンション計算がボトルネックとなり、コストは2～10倍に増加
- Claude Codeは200kトークン制限により、安価なメモリ中心の体制を維持し、高コストな計算中心シナリオを回避
- 長いコンテキストウィンドウに追加料金が課されるのは、こうした経済的変化を反映している

コンシューマー料金プラン（$20/月 ChatGPT Pro）: 1日10万トークン（70%入力、30%出力）で、実コストは約$3/月
- OpenAIのマージンは5～6倍
開発者利用（Claude Code Max 5, $100/月）: 1日200万入力、3万出力トークンで、実コストは約$4.92/月、マージンは20.3倍
- Max 10（$200/月）: 1日1,000万入力、10万出力トークンで、実コストは約$16.89/月、マージンは11.8倍
- コーディングエージェントは入力中心（安価）な利用パターンにより経済性を最大化する
API収益マージン: 現在の価格（100万トークンあたり$3/15）に対し実コスト（$0.01/3）で、80～95%のマージン

この分析はいくつかの前提に基づいており、誤差の可能性はあるが、3倍の差を見込んでも収益性は高い
- 入力処理は100万トークンあたり$0.005と安く、出力生成は$3+で1000倍の差がある
入力トークンと出力トークンの非対称なコスト構造が核心であり、これをうまく活用するサービスは高い収益性を実現できる
- 入力比率が高いワークロード（コーディング支援、文書分析、研究など）→ ほぼ無料に近い原価構造で、非常に高い収益性
- 出力比率が高いワークロード（例: 動画生成）→ 入力は少なく出力は数百万トークンに及び、コスト構造が不利なため高価格政策が避けられない
「AI推論は持続不可能なほど高い」という主張は、実際の原価構造と一致しない。これは既存大手事業者による競争抑制戦略である可能性がある。実際のマージン構造はすでに非常に強固である
過去にクラウドコンピューティングのコスト誇張がビッグテックの超過利益を正当化したように、推論コストをめぐる議論でも**過度な「コスト恐怖マーケティング」**が機能するリスクがある
- 原価構造について事実ベースで向き合う必要がある