トークン価格はますます高くなっている

(ethanding.substack.com)

13 ポイント投稿者 GN⁺ 2025-08-04 | 4件のコメント | WhatsAppで共有

LLMのトークンコストは毎年10分の1になるという期待に反して、AIサブスクリプションサービスでは収益性がますます悪化する現象が起きている
最新のLLMモデルへの需要は常に最上位のSOTA（State-of-the-art）モデルに集中し、「旧型」モデルの値下がりは実質的な原価削減につながらない
モデル性能が上がるほど、使用されるトークン量が幾何級数的に増加し、単価下落を相殺して、むしろ総コストが急騰する構造
無制限サブスクリプション料金プランの実験（例: Claude Code $200/月）も、ヘビーユーザーのトークン暴走によって持続不可能
従量課金以外に長期的に持続可能なモデルはないが、スタートアップの競争構造と消費者の抵抗により、現実的な導入は難しい
持続可能な収益モデルへ転換しなければ、大半のスタートアップはいずれ破綻リスクに直面する

AIサブスクリプションビジネスは、トークン単価が下がっているのになぜ赤字だけが増えるのか

LLM価格下落の幻想

創業者たちは「トークン単価が10分の1ずつ下がるのだから、少し耐えれば高粗利構造に転換できる」というVCのプレイブックを信じ、初期には原価レベル、あるいは赤字でサブスクリプション商品を運営する
実際にGPT-3.5のような旧型モデルのトークン単価は10分の1以上下落したが、ユーザーと市場の需要は常に最新・最高性能のSOTAモデルへ集中する
実際には18か月が過ぎてもマージンは改善せず、むしろ悪化している
旧型モデルの値下げが実感できるのは、「昨日の新聞」のように、すでに市場の関心の外にある場合だけだ

トークン使用量の爆発的増加

モデル性能が向上するにつれ、1回の作業で消費するトークン量が幾何級数的に増加する現象が起きている
以前は1,000トークンで終わっていた作業が、今では100,000トークンを消費しうる
以前は1文の問い合わせに1文の応答で処理されていたが、最近では複雑なリサーチやループ、オーケストレーションによって10〜20分ずつ連続動作し、膨大なトークン消費が発生する
AIにより深い調査・分析をさせることで、「1回の実行に20分、1日24時間連続実行」などとなり、ユーザー1人あたりの1日平均使用量が急増している
- たとえば、毎日$1相当のdeep researchを1回使うだけでも、$20のサブスクリプション料金では採算が合わない
単価下落分が総トークン消費量の増加で相殺され、$20/月の料金プランでは1日1回の$1の作業すら賄えない状況が到来した

無制限プランの失敗

AnthropicのClaude Codeなどは、$200/月の無制限プラン、トークン自動最適化、ユーザーPCの活用など、さまざまなコスト削減策を導入してみた
しかし一部のパワーユーザーは月間100億トークン（『War and Peace』12,500冊分）近くに達し、これはユーザーが自動化、反復作業、ループなどを活用して爆発的なトークン使用を引き起こしたためだ
- 「AIの使用量が人間の時間と切り離され、APIが24時間動いてトークンが暴走する」ことにつながる
エンジニアリング上の革新にもかかわらず、結局プランをロールバックした
結論: もはや無制限サブスクリプションモデルは不可能であり、式そのものが成り立たない

業界全体が直面するジレンマ

サブスクリプション方式にこだわり続ければ、収益性の悪化と崩壊リスクが高まる
AI企業はどこも、従量課金（usage-based pricing）だけが答えだとわかっているが、サブスクリプション型の競合が現れるとユーザー離れのリスクが大きい
「囚人のジレンマ」構造により、誰もがパワーユーザー補助金競争へ追い込まれる
Cursor、Replitなども「成長優先、収益性は未来の問題」としてアプローチしているが、結局いつかは収益性の問題で構造調整が避けられない

現実的な解決策3つ

1. 従量課金
- 初期から誠実な経済モデルを導入すれば、原価を上回る収益構造を設計できる。長期的には唯一持続可能なモデル
- ただし、消費者はメーター制料金を極度に嫌うため、大衆的成功は難しいという限界がある
2. 高いスイッチングコストに基づく企業市場の攻略
- 高いスイッチングコストを持つ**エンタープライズ顧客（例: 大企業、金融機関）**へのB2B営業を通じて、一度市場に入り込めば解約はほぼ不可能で、マージンも高い
- システム・オブ・レコード（SOR, CRM/ERP/EHRなど）分野が代表的な成功事例（例: Goldman Sachsの4万人のエンジニア向け導入など）
3. 垂直統合による付加価値創出（Vertical Integration）
- Replitのように、LLM inference自体は赤字の「おとり商品」として提供し、その上に載せるホスティング、データベース、デプロイ、モニタリングなど複数のサービスで収益を生み出す
- AI使用量を増やしてインフラ市場へつなげる構造を構築する
今後もトークン単価の下落は続くだろうが、ユーザーの期待と使用量も幾何級数的に増える見通しだ
サブスクリプション制の成長戦略だけを守り続ける企業は、結局「高コストの葬儀」を迎えるリスクが高い

要約

「来年にはトークンが10分の1まで安くなる」という楽観論だけではビジネスは維持できない
- ユーザーは常により高い期待値と利用量を要求する
モデルの進化=利用量の爆増=原価の増加という公式が成り立っており、結局持続可能なAIビジネスは、従量課金、大企業契約、垂直統合による新しい構造へ転換しなければならない
- 事業継続を望むなら、ネオクラウド戦略など新しい構造的アプローチが必要

4件のコメント

mhj5730 2025-08-06

キャッシュしにくい点に加え、MCPを活用した自動化によって、無制限利用は文字通り本当の無制限利用に向かいかねません。……無制限データプランのない通信会社のように、1日300回、1日2000回など……昔のSMSのような料金体系に向かう気もしますね。

doolayer 2025-08-05

インターネットのように量自体は無制限で（従量課金がかかる場合もありますが）、速度に制限をかける方式にするとよいと思います。実装については、今でもバッチ処理方式があるように、演算資源とユーザーに届く資源は分離できます。結局のところ、供給者の立場でも予測可能性を確保でき、ユーザーも合理的な金額と速度を保証してもらえるなら、ウィンウィンではないでしょうか。過度に利用する一部のユーザーについては、別途契約を通じて専用資源を割り当てる形で進めるべきでしょう。

GN⁺ 2025-08-04

Hacker Newsの意見

記事で引用されている内容を見ると、消費者は従量課金制（メーター料金）を嫌い、驚くような請求額を受けるくらいなら、むしろ定額制に過払いする方を好むと言っている。とはいえ実際はもっと複雑だ。Amazonではコストを予測できたと思った瞬間に、突然請求が大きくなることがよくある。その理由は「月にXドルを超えたら自動で止めてほしい」と設定する方法がないからだ。この手の「サプライズNet 30」構造は、常に予測可能なコストのように感じられる一方で、結局は予期しない追加費用が返ってくる。しかし従量課金でも、ユーザーが使用量を明確に把握でき、予算超過を防ぐ上限を指定できるなら、むしろ良い方式になりうる。AI企業としては、「使用したトークン / 総トークン」の棒グラフ、応答ごとのトークン使用量、上限到達前にあと何回応答できるかの予測などを提供して、ユーザーが予算を管理できるようにすればよい。突然の請求は絶対に避けるべきだ。しかし企業はこうしたトークンやドルの情報を隠したがる。ちょうどギャンブルサイトが「コーポレート・バックス」をUSDに直結させないのと似ている。
- インフラとしてのB2Bサービス（AWSなど）には従量課金が適していると思う。企業が成長するほどインフラ使用量と料金が比例して増えるので予測しやすいし、インフラは一度設定すればほとんど気にする必要がない。しかしAIのように業務用のツールとして使う場面では、従量課金は大きな障壁になる。こういう状況では従量課金が製品利用そのものを抑制する原因になり、使うたびに費用対効果を分析しなければならない大きな疲労が生じる。仕事で使うなら、管理者の承認を何度も取らなければならないかもしれない。生産性向上を狙うツールが、こうした障壁を作ってはいけない。ほとんどの人は250回も「この操作に3ドルの価値があるだろうか？」とは考えない。従量課金なら、単に使わなくなる。
- 企業がトークンをドルに換算する情報を隠そうとするのが不満だ。GitHubのCopilotエージェントのトライアルを試しているが、料金が本当に不透明だ。「プレミアムリクエスト」という用語ばかり出てきて、ダッシュボードではリアルタイムの使用量や上限を確認できない。UI上でプレミアムリクエストの話をクリックするとドキュメントに飛ぶが、実際の上限や料金ダッシュボードは明確に案内されない。
- Amazon（AWS）では問題がさらに深刻だ。AWSの「より安い」という誘惑とは裏腹に、実際には代替手段より安くなければ移行する意味がない。とはいえ多くの会社は、開発者の時間を使ってまでインフラを変えない。機会費用が大きく、リスク（収益、開発時間、競争など）もあるので、投資効果が非常に大きくない限り、開発時間の無駄と見なされるからだ。もしインフラ構成が代替案より実際には高くついてしまったなら、すでに開発者時間を費やしている以上、その損失を受け入れるしかない。まだトークンベースの料金体系では、こうした移行コストや機会費用の負担はそれほど大きく感じられない。簡単に従来方式へ戻れるからだ。ただし今後はこの構造も変わるだろうと思う。
- Amazonの価格体系は非常に曖昧で複雑に感じる。たとえば、なぜデータベース費用がずっと上下しているのか、知る手段がない場合もある。
- 定義されたプロセスに対しては、従量課金は本当に有用だ。AWSの気に入っている点は、コストを実際のビジネスと一致させられることだ。以前はこれが難しく、社内政治の問題も多かった。営業担当が役員に直接設備の必要性を訴えて、まったく望んでもいないネットワーク機器まで抱え込まされることもあった。しかしユーザーの立場からすると、こうした細かなコスト管理は好ましくない。なぜなら生産性と直接関係のないさまざまな指標で、ユーザーを継続的に評価することになるからだ。90年代にインターンをしていた頃、長距離電話を1本承認してもらうにも官僚主義に悩まされた。承認者が20分通話が妥当だったかをいちいち評価し、上限を超えれば私が費用を負担した。楽しくない経験だった。ユーザー向けAIには固定料金制が正解だ。生産性が20%上がるなら、月額$200でChatGPT Proを使って年$16kの価値が出る。非常に安い投資だ。
記事の主張は私には論理的に思えない。「新しいモデルが出ると99%の需要がすぐに移る」という話には同意しがたい。むしろSonnet 4の方がOpus 4より多く使われていて、実際には最高性能モデルではなく、安価で無難なモデルを使うユーザーも多い。使いやすさ、速度、親しみやすさなどさまざまな理由から、SOTAではない複数のモデルが並行して使われている。モデルランキング参照: https://openrouter.ai/rankings また、OpusからSonnetへ、重い時はHaikuへ切り替えることをオートスケーリングのように説明しているが、実際にはその動作はモデルの重み自体に組み込まれてはいないと思う。全体としてこの記事の料金体系の問題は、クラウドホスティング時代にも経験した問題の再現に見える。多くのユーザーは月額固定で性能が多少落ちても便利に使い、一部のAPIユーザー（ヘビーユーザー/企業）は従量課金で利用する。この構造はすでに十分な収益性が保証されている。ほとんどのAIスタートアップはB2Bであり、B2Cではない。
- 「最高のモデルとは何か」をめぐる議論が活発になっている現状には強く共感する。たまにMistralをメインLLMとして使うが、ChatGPT/Gemini/Claudeと比べても実使用では大差を感じないし、速度ははるかに速い。商用LLMの競争は、すでに費用対効果があまり高くない状態になっている。Deepseekのような例は、コストが低く品質も上げられることを示している。価格競争はまもなく本格化すると見ている。そのためMixture of Expertsのアプローチや特化モデルの競争が目立ってきているのだと思う。価格を下げ、精度を高める方向に進んでいる。
「Claude Codeがもともと無制限の$200/moを提供していて、それをロールバックした」という話は事実ではない。プラン名自体が20xプランであり、5時間セッション制限や月50セッション制限（強制ではないが）など、最初から制限は明確にあった。私自身使っていて不足を感じたことはほとんどなく、むしろ今でも上限は高いと思っている。だから本当のことを言っても、論旨にはまったく害がない程度の話だ。
- その通り。Maxプランは最初から無制限とは案内されていなかった。この誤解をあまりにも多く見聞きしている。繰り返し目にするうちに、みんな無制限だと思い込んでしまっている現象だ。
現実的に大きな問題は、今の私たちが区別なくモデルを使い、あらゆる問題に最高スペックの汎用モデルを投入して、蚊を大砲で撃っているような状態だということだ。すべての問題にSOTAモデルが必要なわけではない。今後は利用するサービスが複数モデルの「バンドル化」に向かい、はるかに効率的な利用グラフが現れるだろう。
- まだどのモデルも、主要な仕事を完全に信頼して任せられる水準には達していない。最高性能のモデルですら、ときどき奇妙な動作をする。私の脳は常に仕事を自分で処理していて、委任のために余計な頭を使う必要がない。だからAIに任せるのは、「確実な得」がある場合だけだ。まず自分が得意なことを優先する。AI企業は最高性能を宣伝するが、ユーザーにとって重要なのはAIの「最悪の瞬間」だ。SOTAに常に需要があるのはそのためだ。AIは「最悪の瞬間」で評価される。どれだけ良くても、1回のミスが致命傷になりうる。実際、人間も最悪の失敗で解雇されるのと同じだ。完璧なケース（研究室環境）での性能が重要なのではなく、実運用で壊れたときの方が重要だ。記事ではこの点がよく表れている。
- 依然として最も難しい作業は解決されていない。低精度の回答を受け入れられる作業は多くない。一部のテキストパイプライン作業には向いているかもしれないが、ユーザー向けのほぼすべての用途では高い品質が求められる。
- この点を見落としている人は多い。7bや32bのGPUモデルでも、多くの作業では十分によく動くし、旧型ハードウェアでも動作する。今はまだLLM全体の性能が上がっていくハイプの段階なので、時間が経てば大規模モデルの性能向上は頭打ちになり、現実的な選択が始まるだろう。
- さまざまなモデルを試してみる価値はある。最近私が作った簡単なチャットボットシステムでは、状況ごとに5種類のモデルを使い分けている。モデルを入れ替えたり混ぜて使ったりすることで、コスト、ユーザー体験、品質に非常に大きな差が出る。
- もしClaude OpusがSonnetをガイドできるオプションがあれば、ほぼすべての会話でそれを使うだろう。手動でやると面倒で流れが切れるので、結局Opusだけを使い続けてしまう。並列処理のおかげで入力コストは低いので、プロンプトが大きくなっても大きな負担ではないと思う。
どこかのAI企業が、タスク内の単純作業をより「鈍い」モデルに委任できるシステムを作ってくれたらいいのにと思う。複雑な作業はOpus級モデルを必要とするが、その中には実際には3.5 Sonnetで十分な仕事が山ほど含まれている。Opusは単純な作業と難しい部分を区別して、簡単なものは複数の3.5 Sonnetに分散して任せればいい。あまりにも当然のアイデアなので、もうみんな作っているだろうと思う。
- Claude codeは実際にSonnetとHaikuの2モデルを自動で活用している。セッション終了時にはトークンやコストなど各種統計も案内してくれる。おそらくセッション中にもこうした情報を確認する方法があるはずだ。
- たとえばプロンプトで、各サブタスクごとに1〜10段階の「推奨モデルレベル」を吐かせるのはどうだろうと思う。
この1〜2年、私はAPIに直接課金して、オープンソースのフロントエンド（LibreChatなど）からさまざまなモデルに接続して使ってきた。たまに使うだけなら非常によく合っていて、数か月に一度$10ほどチャージすれば十分だった。自分が使うトークン量は、ほとんどのパッケージ料金よりずっと少ないので、この方法の方がはるかに安いと判断していた。ところがClaude Codeなどさまざまなツールを使い始めると、トークンが目に見えて速く減る。昨日は15分で$5分のトークンを使ってしまった。Code系ツールが、LLMに単純な質問をする時とはかなり違う動きをするのは分かっていたが、ここまで差が大きいとは思わなかった。大量のトークン使用が実際には見えにくく（どんどん大きくなるコンテキストやツールのオーケストレーションに隠れている）、なおさら驚いた。
- Claude Codeは普段よりはるかに広いコンテキストと反復処理を多用するため、こういう現象が起きる。
- Deepseek APIには$20で1年近く十分だった（中国企業であることは気にしない）。速度は遅いが、独立ホスティングのDeepseekモデルより品質はむしろ良いと感じる（私の経験では）。エージェントのようなものは使っていない。
「99%の需要が常に最先端モデルに集中している」という主張には異議がある。本当のフロンティアは「能力」そのものだけでなく、「価格に対する能力」にある。最高スペックのモデルが99%のシェアを取っているわけではなく、むしろ逆だ。OpenRouterの統計を見ると、Claude Opus 4のシェアは1%程度で、最も人気が高いのはSonnet 4で、加入者の18%が使っている。そのほか、より安価なGemini Flash 2.0、2.5も多く使われている。Sonnet 4よりも価格が安い。
- その通りだ。記事全体の趣旨には同意するが、OpusがSonnetより多く使われているというのは誤りだ。グラフには「Claude 3.5 Opus」という存在しないモデルまで記載されている。3.5 Sonnetがリリースされて以降、3 Opusはほとんど忘れられており、最近になってOpus 4のような高価なモデルが再登場したが、それでもSonnet 4に比べればAPIユーザー比率は大きくない。
サンフランシスコではなぜ大文字や句読点を使わないのか気になる。そして、なぜシリコンバレーの人たちが偽りの指数関数的成長に執着するのかも分からない。実際には、AIの進歩が本当に指数関数的に起きているというより、数年前に比べて投入資源が桁違いに増えただけだと考える方が明らかだ。
- もしかすると、こういう独特な文体は、LLMが書いた文章ではないと示すためなのだろうか。
- 言語が自然に変化するのに耐えられないのか？ /冗談もしかすると昔のやり方で生きるしかないのかもしれない。
- サンフランシスコのTenderloinやMission Streetに行けば、実際に大文字や句読点を使わなくても撃たれたりするのか？（冗談）
この記事は、市場の陣取り合戦における「椅子取りゲーム」を見落としている。Uberの例のように、ベンチャーキャピタルを使って市場シェアを先に押さえ、何年も赤字を受け入れてでも顧客認知に定着すれば、その後より安くて新しい競合が出てきても簡単には揺らがない構造になる。ビジネスは安定して根付き、上場後も堅実な（もちろん飛び抜けてはいなくても）株価を維持する。
この記事では、まるで誰も従量課金の価格を払っていないかのように描いているが、実際にはAPI顧客、つまりほぼすべての企業顧客は、すでに全員が従量課金を支払っている。

laeyoung 2025-08-05

「サンフランシスコではなぜ大文字や句読点を使わないのか気になる」

本文に入ってみたら本当にそうですね。不思議なのは、ある文ではピリオドを使い、ある文では使わずに混ざっていることですが、何か理由があるのでしょうか？もしご存じの方がいれば教えていただけますか？気になるんですが 🤔