- 大半の人はLLM(大規模言語モデル)の利用コストを過大評価しがちだが、実際には急速に低下しており、Web検索よりも安い水準に達している
- 生成AIブーム初期には推論コストが高かったが、この2年間でコストはほぼ1000分の1に低下
- LLM APIの実際の単価をWeb検索APIと直接比較すると、低価格帯のLLMモデルは最安の検索APIよりも10倍以上安く、中価格帯のモデルもかなり競争力のある価格構造となっている
- モデル運営企業がAPI価格を無理に補助しているという根拠は乏しく、実際にGPUコスト基準で80%に達する高いマージンを記録している例もある
- OpenAIなど主要AI企業が赤字なのはコストではなく、収益化方針が弱いためであり、ユーザー1人あたり月1ドルを受け取るだけでも黒字転換が可能な構造である
- 今後、コスト負担の中心はLLM自体ではなく、外部バックエンドサービス(例:各種データ提供元)へ移る見通しである。LLMの実行はますます安くなり、ビジネスモデルも十分に成立しうる
LLMのコストに関する誤解と現実
- 多くの人がChatGPTのようなLLMの運用コストは非常に高いと誤解している
- そのため、AI企業の事業性は不透明だとか、消費者向けAIサービスの収益化に不利だといった誤った分析が繰り返されている
- LLMはいまだに高価だという認識は誤り
- AIブーム初期には推論(inference)コストが非常に高かったが、ここ2年でコストはほぼ1000分の1に低下
- 多くの議論が過去基準のコスト構造に基づいて誤った見通しを立てている
- よく使われる**「100万トークンあたりの価格モデル」**は直感的に理解しにくい
Web検索APIとLLM APIの価格比較
- 代表的なWeb検索API料金
- Google Search: $35/1000回
- Bing Search: $15/1000回
- Brave Search: $5~9/1000回、単価が高くなるほどむしろ価格が上がる構造
- 全体としてWeb検索APIは安価とは言えず、サービス品質が高い方がより高価
- LLM API(1kトークン基準)料金
- Gemma 3 27B: $0.20
- Gemini 2.0 Flash: $0.40
- GPT-4.1 nano: $0.40
- Deepseek V3: $1.10
- GPT-4.1: $8.00 など
- 検索と比較可能な形でLLM単価を算定する必要がある: 1クエリあたりのトークン出力量 + トークン単価
- 500〜1000トークンが平均的なクエリあたりの消費量であり、直接比較が可能
- 低価格帯のLLMモデルは最安の検索APIと比べて10〜25倍安い
- 品質が中位のLLMでも同じ範囲の検索よりはるかに低コスト
- バッチ単位、ピーク外時間の割引など、さまざまな追加割引条件を考慮するとさらに安くなる
コストが安い本当の理由
- モデル提供企業によるAPI単価補助疑惑は根拠が弱い
- API市場シェア拡大の誘因も弱く、多数の他社提供API価格も競争的に形成されている
- Deepseekの実測資料によれば、GPU基準のマージンは80%に達する
- 学習(Training)コストと推論(Inference)コスト
- 大規模な推論トラフィックによって学習コストが効果的に分散(Amortize)されている
- むしろサードパーティ製バックエンドサービス利用時に発生するコストの方が問題として浮上する可能性がある
「LLM APIは赤字だろう」という主張への反論
- OpenAIなど大手事業者の赤字は、収益化戦略が弱いことの結果
- 月1ドル程度の収益化だけでも黒字転換が可能
- 無料ユーザーのトラフィックを活用したデータ収集目的なども存在する
- 今後の本当のコスト問題はLLMではなく外部バックエンド
- 例: AIエージェントがチケット予約などで外部APIを呼び出す場合、実際にはサードパーティ側のコスト負担が大きくなりうる
- サービス事業者はクローリング遮断、モバイル移行、ログイン強化などで対応していく見通し
なぜ重要なのか
- 多くの将来予測がLLMは高価だという誤った前提に基づいて行われている
- 実際にはコスト低下と需要増大が同時に起きており、今後価格はさらに下がって市場活性化が見込まれる
- Frontier AI企業は収益化より市場先取りに重点を置いており、実際にLLMサービス単価はとりわけ低い
- 本当のコスト問題はLLM自体ではなく、背後にある**外部連携サービス(例:チケット販売サイトなど)**にある
- こうした外部サービスが収益を得られない構造の中で、今後AIとバックエンドサービスの間に新たな収益モデルや技術的対立が生じる可能性がある
結論と展望
- LLMの推論コスト自体は、もはやAIビジネスの本質的制約ではない
- 安価な実行コストと多様な収益化オプション(例:広告、サブスクリプションなど)により、十分な事業可能性を持つ
- 今後はLLMではなく、AIが利用する外部データ提供元のコスト・インフラ問題が主要課題になるだろう
- 市場・技術変化に合わせた現実的なコスト認識とビジネス戦略の転換が必要である
4件のコメント
オンプレミスでグラフィックカードを用意して使ったり、クラウドでGPUをレンタルしたりするシナリオでシミュレーションしてみたときはものすごく高いと思っていましたが、
規模の経済を達成すればかなり現実的にやれるみたいですね。
LLMで monetization できるのか疑っていましたが、前向きだというのは驚きですね。
思った以上に衝撃的な調査結果ですね……数十兆ウォンが投資されたモデルの利用コストが安く、そのコストでも十分に収益化できる水準だとは……
Hacker Newsの意見
収益を出している検索APIと、赤字を受け入れて市場シェア獲得を狙うクラウドベースのLLM APIを比較するのは適切ではない、という考え
現在のデータは、企業がAIの主導権を握るために莫大な設備投資(capex)を行っている状況を示しているが、まだ収益性を確立する段階には至っていない
両製品は成熟度がまったく異なっており、利用率が落ちている10年物のサービスで赤字を出し続けることを正当化できないという現実は無視できない
また、検索クエリはCPUと高いキャッシュヒット率で処理できる一方、LLM推論は大半がGPUを必要とし、各トークンの出力が大きいため、ユーザー間でキャッシュを共有しにくい環境でもある
inferenceサービスに収益性がない証拠はないと言うが、実際にはAWSのようなホスティング事業者でinferenceコストを直接支払ってみれば分かる、という立場
AWSが外部モデルを動かすサービスを無期限に補助するはずがなく、設備投資はcapexだが、推論実行コストはopex(運用費)である点のほうが重要だという主張
最近では、オープンソースモデルをホスティングするAPIプロバイダーは、API料金と実際のinferenceハードウェアコストの間に十分大きなマージンを確保している
もちろんそれがすべてではないが、自前の推論最適化まで考慮すればマージンはさらに大きくなりうると見ている
OpenAIやAnthropicのようなクローズドモデルの提供者についても、公表されているモデル仕様から推定すると、AnthropicはAPI料金とハードウェアコストの間にかなり良いマージンを出していると考えている
実際に本番環境でこれらのモデルを動かした経験があれば、この点は自分で検証できるはずだと思う
Perplexityが利益率の高い企業に見えるよう、COGSをR&Dへ会計上付け替えるような会計操作をした形跡がある
リンク
DeepSeekのAPIサービス分析によれば、同社は500%の利益率を記録しているだけでなく、同じモデルを提供する米国企業よりもはるかに安い価格で提供している
OpenAIやAnthropicも、これよりはるかに高い利益率を上げている可能性は十分あると見ている
GPUは概してCPUよりコスト効率・電力効率の両面で優れており、Anthropicは24kトークンのシステムプロンプトでKV-cacheキャッシュを活用している
LLM APIが赤字を受け入れて市場を先取りする戦略だ、という認識には同意しない
現在はopenrouterのようにモデルやプロバイダーを自由に切り替えられるサービスがあり、ロックイン効果がないため、市場シェアを取る戦略自体に経済的な意味がない
ChatGPT WebのようなUI経由の商品ならまだしも、APIを赤字で売るのは愚かだという立場
しかもVCも、APIを赤字で売ることを認めないだろうと思う
検索エンジンとLLMを単純な事実検索(例: "米国の首都は?")用途だけで使うと仮定して比較すること自体、両サービスの主要ユースケースから大きく外れたたとえだと思う
検索エンジンを使うならWebインデックスへのアクセスに重点があり、単純な答えを得ることはUI/製品の機能であってAPIの目的ではない
LLMを使う場合は、大規模データ分析、画像認識、複雑な推論、プログラミングなど、やや複雑な用途に使われることが多く、この場合のトークン使用量は単純な検索応答よりはるかに大きいという違いがある
筆者の言っていることは、「Honda Civicはリンゴと1ポンド当たりの価格が近いから安い」と言っているような誤った比較に感じられる
既存の検索エンジンモデルはだんだん役に立たなくなっている感じがする
専門家はますます検索エンジンを使わなくなり、一般ユーザーも検索エンジンをWebインデックス探索ではなく、まるで人に尋ねるような対話用途で使っている
「米国の首都は?」のように不要な部分を含むクエリは、むしろ検索エンジンよりLLMのほうが適しており、
SEOスパムサイトが多すぎて検索品質の低下も大きな問題だ
LLMは自然な質問をよりうまく処理し、無駄に長い説明やスパム、広告なしで欲しい答えだけを選んでくれるので、今後さらに有用になると思う
筆者が「検索とLLMの比較が単純な事実照会にとどまっている」と指摘した点には同意しないが、実際の分析の核心は『検索エンジンとLLMを比較する』ことではなく、
単に単位当たり(トークン/クエリ)の価格とコストの差を比較してマージンを計算することにある
APIが補助金で維持されているかどうかを論じる際、検索エンジンとの比較は必須ではないという考え
LLMを大規模データ分析や複合的な用途に使うという点自体は正しいが、これはパワーユーザーに当たることは認める
検索エンジンはWebインデックスを探す用途だという点は良いポイントだと思う
ただしLLMも、欲しい情報をより正確に、重複なく、速く見つけられるので、従来の検索が無条件で優れているとは言えないと思う
LLMが直接的な答えを返し、さらにリンクまで付けて結果を検証しやすくしてくれるなら、ユーザー満足度はむしろ高くなる可能性がある
Googleも検索結果をどんどん埋もれさせているのは、インデックスベースの結果が次第に役に立たなくなっている現実のせいだという意見
OpenAIは2024年に非常に大きな赤字ではなく、月間訪問数/利用量を考えるとinference(推論)コストは実際それほど高くないという根拠もある
ChatGPTが毎月世界で最も訪問されるサイトの一つであり、そのトラフィックの大半が無料利用であることを考えると、実際のコストは思ったより大きくないかもしれない
LLM関連コスト推定の根拠が明確ではない、という疑問を呈している
たとえば航空機の手荷物サイズのような最新の事実は、LLMにソース確認可能なWeb検索機能を付けて調べさせたほうが信頼できる
そうなるとトークン消費が急速に増え、コスト推定が外れる可能性があり、
複数回の対話で文脈が蓄積されると、総トークン使用量が急増する構造でもある
実使用データなしに推定だけでコストを算定するのは難しい点は認める
自分はLLMに最新情報を尋ね、LLMは複数のWebページを直接読んで要約して案内してくれる
最新の関連質問をすると必ずWeb検索を行い、参照リンクも付けてくれるので、こうした形で活用できると思う
「米国航空会社のDFW-CDG路線で機内持ち込みサイズはいくつか」と尋ねたところ、Web検索を使って正確に答え、公式WebサイトとFAAリンクまで案内してくれた
このような使い方は効率的だと思う
半導体の確保が難しい現実と、高価な電力・設備コストを考えると、大手プレイヤーが今すぐAPIベースのLLMサービスを収益性改善なしに回しながら利益を出せるとは思えない
ハードウェア価格と電力の問題が解決しない限り、しばらく大きな利益を出すのは難しいだろう
YouTubeも20年運営していても、具体的な黒字かどうかをAlphabetが公開していない点を例として挙げている
Alphabet(Google)の大きな収益性は、検索市場での圧倒的なシェアと広告売上のおかげだ
AI企業も、いずれは市場シェアを売上に転換できると賭けている最中だ
Stickiness(定着性)が生まれれば、市場シェア→収益への転換も十分可能性が高いと見ている
株価上昇そのものが、ある意味では企業収益性の基準になりうると述べ、
Amazonが10年以上同様の戦略を取っていた点に言及している
OpenAIが2024年に5億ドル赤字、5億MAUという数字から、『5億人の無料ユーザーを年間ARPU $10に転換すればBEP達成可能』という論理は、実際には実現が難しい数字だ
無料ユーザーにたとえ$1でも課金すれば大半が離脱する見込みであり、
「ただ」という言葉が現実を単純化しすぎていると思う
実際には$1/月の利用料へ転換しようという話ではなく、最近はLLMを動かすコストが非常に安くなっているので、広告ベースでも十分収益化できるという主張だ
同規模のユーザーを持つサービス(広告ベース)と比べると、現在のLLM原価ははるかに低く、サブスクリプションだけが唯一の答えではないと思う
5億人を有料ユーザーに転換すると、むしろサービス利用パターンと原価構造がまったく変わり、コストが爆発する可能性がある
むしろ1%だけ有料転換すれば年間10億ドルになる、という単純な仮定も可能だ
自分は、これらのサービスが赤字運営をしている理由は、ユーザーデータの価値が購読料よりはるかに大きいからだと思う
実際には全員が有料転換する必要はなく、一部の有料ユーザーが残りを支える構造さえ作れれば十分回る、という立場
時間がたち、市場シェアの集中と規制の後には、投資家に約束された値上げの現実化が来る見通しだ
どんな質問をしても回答の合間にコカ・コーラの広告が出たり、
AIコーディングプロジェクトに自動広告が付いたり、
AIが送る10通目のメールごとに保険商品の広告を挿入したりと、
無限の収益化機会が存在する
社内でのLLM運用コストを電力使用量中心で試算してみると、社内ユーザーのバースト的なリクエストにもかかわらず、100万トークン当たり10ドル台にすぎない
サーバー負荷も大きくなかったので、大規模に回せばさらにコストが下がる余地は十分ある
LLMの1トークン応答と検索エンジンの1検索結果が同等に比較できるのか疑問だ
筆者はLLM1000回呼び出し(約100万トークン)を検索エンジン1000クエリと比較しているが、
実際には1000倍の差が出るような誤りがあるのではないかと思った
(追記: 筆者の方法を見ると、実際に1000回のAPI利用基準で価格比較していたので誤解だったと自分で確認した)
筆者がLLM1000回(合計100万トークン)、検索エンジン1000回を基準に単価比較していたことを訂正している
Gemini 2.0 Flashが100万トークンで0.4ドル、Bing Search APIが1000クエリで15ドルなら、LLM側が37倍安い計算になる
今後、効率改善や100倍の原価削減が見込まれるなら、なぜ今これほどデータセンターを増設しているのか疑問だ
マシンのアップグレード周期を経るだけでも既存データセンターを十分活用できるのではないかと考えつつ、
現在の投資熱が実際にはバブルかもしれない可能性にも触れている
関連する性能比較記事を共有している
リンク
実際の価格だけを見ても高いと思われ、
極端な市場シェア競争の状況では数字だけを見て解釈することはできない、という立場だ