Uberの月額1,500ドルのAI上限は、AIツールの価格設定に有用なシグナル
(simonwillison.net)- Uberは、エージェント型コーディングツールのコスト増加に対応するため、全従業員についてAIコーディングツールごとの月間トークン支出を1,500ドルに制限した
- 上限はCursorやClaude Codeのようなエージェント型コーディングソフトウェアにのみ適用され、あるツールでの支出は他のツールの予算に影響しない
- Uberは2025年に2026年のAI予算を策定したが、その後、トークンを大量に消費するコーディングエージェントが予想より早く人気を集め、2026年予算を4カ月で使い切った
- ツールを2つ積極的に使うと仮定すると、エンジニア1人あたりの年間上限は36,000ドルとなり、これはLevels.fyiが示す米国Uberソフトウェアエンジニアの中央値報酬330,000ドルの約11%にあたる
- AIツールの価格は、個人契約者向けの補助付きプランと大企業が実際に負担するAPI価格の間で乖離が大きくなっており、Uberの上限は企業が負担可能なコスト基準を示している
UberのAIコーディングツール支出上限
- Uberは、全従業員のAIコーディングツールごとの月間トークン支出を1,500ドルに制限している
- この上限はここ数カ月の間に導入され、CursorやAnthropicのClaude Codeのようなエージェント型コーディングソフトウェアにのみ適用される
- ツールごとの上限であるため、あるツールで使った費用が別のツールの予算を減らすことはない
- 月額1,500ドルの上限は、過剰消費への対応として合理的であり、従業員にAI利用量を競わせるtokenmaxxingのリーダーボードよりも妥当な方法として評価できる
価格シグナルとコスト計算
- Uberが2026年のAI予算を4カ月で使い切ったことは、2025年に予算を立てた時点ではトークンを大量に使うコーディングエージェントの人気を予測するのが難しかった、という文脈とつながっている
- エンジニア1人が積極的に使うツールを2つと仮定すると、月3,000ドル、年36,000ドルが上限となる
- Levels.fyiの米国Uberソフトウェアエンジニアの年間報酬パッケージ中央値は330,000ドルで、年36,000ドルの上限はその約11%にあたる
- 個人利用の基準では、AnthropicとOpenAIそれぞれで月1,000ドル分のトークンを使っても、個人契約者向けの補助付きプランのおかげで、現在の費用は提供者ごとに100ドル程度にとどまる
- そうした個人向けの補助付きプランはUberのような大企業にはもはや提供されておらず、現在の利用パターンであれば、Uberの上限内でも各ツールごとに月500ドルが残る
1件のコメント
Hacker Newsの意見
AI企業が現在のトークン単価を維持し続けるのか、それとも中国発の競争のために結局は引き下げるのか気になる
予算の多くない個人は、すでにDeepSeekのような中国のオープンウェイトモデルへ移行しつつある
中国が本当に企業を補助しているのか、それとも推論コストが実際にははるかに低く、Anthropic/OpenAIが将来のIPOに向けて可能な限り高く請求しているだけなのかも疑問だ
先行研究所は、少なくとも低価格帯・中価格帯モデルについては高いトークン単価を下げる必要がありそうだ。Qwen、DeepSeek、Kimi、GLMといった中国モデルが、適切な実行環境を組み合わせれば費用対効果の高い代替手段になれるほど「十分に近づいてきた」からだ
ただし、同じ問題を解くためにより多くの作業を必要とするモデルもあるので、今すぐ完全に差を埋める必要はないのかもしれない
それでも価格は何らかの形で下がっていきそうで、同時に安価な中国モデルのサブスクリプションにも補助金が入っている可能性が高く、時間が経つほど寛大ではなくなりそうだ
トークン単価は、競争圧力や顧客が旧式の低価格モデルを使うインセンティブのために時間とともに下がるが、データセンターは売上が時間とともに増えるという前提で負債により調達されている
彼の表現を借りれば、「[AI企業は] 価値が下落する商品で固定費を返済している」ということだ
一方ではトークン売上が下がり、他方では次のフロンティアモデルの学習コストが上がり、同時に10年物の負債も返済しなければならない
0: https://youtu.be/wGZboZcSGDY?is=64GuKyqBh_4aSjTE
「問題をさらに大きくしているのは、中国の研究所がデュアルユース可能なモデルをオープンウェイトで公開することが多い点だ。モデルがオープンウェイトになると既存の安全装置も取り除かれうるため、その安全装置が防ごうとしていたサイバーおよびCBRNの悪用を含め、悪意ある目的を持つ国家・非国家主体が利用できるようになる」
https://www.anthropic.com/research/2028-ai-leadership
大企業がいつflashモデルでも次の条件なら十分うまくいくと気づくのか気になる
大きなモデルでも依然として大幅な変更は苦手で、怪しいアーキテクチャを作り、真面目なプロジェクトならどうせコードレビューは必要だ
どのモデルでも十分に注意を払わなければコードベースはすぐにぐちゃぐちゃになる
指示を与えながら反復する状況では、flashモデルは10倍安くてはるかに速いのに、わざわざ大きなモデルを使う理由があるのかと思う。大きなモデルはセキュリティやバグ監査に使えばよく、300行以下の変更なら欲しいコードの形を指示すればflashモデルでもほぼ同じように動く
この数字が大きく増えれば、提案されたように企業がflashモデルをより真剣に検討し始めると思う
ただし、そこで最も重要な別の要素である実行環境(harness)を見落としがちになる。自作のオーケストレーターで計画/設計/コード/ビルド/テストを行う自律パイプラインを運用し、複数の段階でエージェントを使う
段階ごとにより適したモデルが異なり、LLMで段階間の成果物を評価する。すべての作業にOpus 4.8が必要なわけではない
実行環境は、モデルに何を入れて何を取り出すべきかを調整する足場を提供し、どのモデルにどの仕事をさせるかも指定できるようにする
与えられたトークン予算の中で品質を生み出すのはモデルではなくパイプラインだ
あるいは、大きなモデルが簡単な質問と難しい質問の違いを学んで、それに応じて課金することもできるのではないかと思う。複雑さを測定できるなら見積もりまで出せるかもしれない
小さなモデルは小さなコーディング作業には十分だが、大きなモデルでもほとんどの場合に作業を細かく分割できない理由はよくわからない
それはエンジニアリングの問題になり、エンジニアが解決すべきこととして押し付けられる
いまだに AIコーディング が一時的な流行で終わると信じている人がこんなに多い理由が分からない
始まってまだ2年も経っていないのに、企業はすでに1席あたり数千ドルを払っていて、月5,000ドル払っているところも知っている
何もないところからこんな速度で受け入れられたツールがほかにあっただろうか
今見かけるAI LLMのプルリクエストは、ほかの人の仕事を増やすだけで、いわゆる「ビルダー」たちは新しいダッシュボードやデモ向け機能のおかげで見栄えがしているだけだ
しかし、コードの流れについて対話することもできないし、なぜそうなったのかという思考過程を尋ねることもできない
複数人の経験が反映されて土台から積み上げられたのではなく、何もないところから物質化したように出てきて、基本的な分離もなく、抽象化もほとんどない
誰も触りたがらない。プルリクエストは大きすぎるし、その「作成者」たちは私たちと一緒にオンコールにも入らない
手柄は全部持っていくのに、実際の仕事はしない
家を設計しておいて、建築家やエンジニアに「これを実現して」と送るようなものだ
企業がそう振る舞う理由としては、「AIコーディングが流行ではないから」よりもずっと合理的な説明がいくらでもある
プルリクエストは大きすぎて誰もその混乱をレビューできず、もしデプロイしたならオンコールを覚悟しなければならない
改善するかもしれないし、しないかもしれないが、まだ分からない
大きすぎるし速すぎて、安定しているとは感じられない。この水準を維持するかもしれないし、さらに増えるかもしれないし、もっと普通の利用量や予算水準に下がるかもしれない
月100ドルのサブスクリプションを使っているが、直近30日の APIコスト は月1,700ドルくらいだ
使い方次第で大きく変わる。プロンプトで詳細設計を作り、それを作業リストに分解したうえで、複数のエージェントに投入すると、数千ドルはあっという間に燃える
もっと慎重に使い、一度に数個のエージェントだけを対話的に回し、プルリクエストのレビュー、イシュー解決、自動整理、性能最適化などに使えば、1,500ドル程度になることもある
単発の質問をより優れたStack Overflowのように投げる程度なら、100ドルを大きく下回る
最近は
/goalにハマっていて、検証可能な目標を見つけて一晩走らせておくと、翌朝どこまで進んだかを見るのがクリスマスの朝みたいだ月1,500ドルなら、1席あたり年 18,000ドル だ
MicrosoftとNvidiaは何かを見抜いているのかもしれない
ローカルLLMを回せる128GBマシンが5,000〜8,000ドルだとしても安く感じる。秒間トークン数はまだ十分ではないが、いけるかもしれない
ボトルネックは本当にコードではなく、Uberがその大金を使っていったい何を作り、それが売上にどういう意味のあるプラスの影響を与えたのかという点だ
個人的には50 tok/s未満は完全に使い物にならない水準だ
いずれにせよ、これはリンゴとオレンジの比較でもある。オープンウェイトモデルの推論はかなり安く、ClaudeやOpenAIがDeepSeekやOpenRouterのさまざまなプロバイダに比べて非常に高いマージンを取れているだけだ。オープンモデルはコモディティだからだ
ノートPCは減価償却資産だし、規模の経済もなく、仕様も固定され、モデルを最新に保たなければならない断片化した機材群を作ることになる
消費電力や冷却の問題まで考えると、企業がなぜその方向に進むのか本当に分からない
ローカルハードウェアは、1万通りの壊れ方をする複雑なソフトウェアスタックを動かすと高くつく
将来のローカルAIサーバーは、AI向けの何らかのプロトコルで通信するだけで隅に置かれ、誰も気にしなくなるはずだ
それでも複数のシステムへのアクセス権は必要かもしれないので何とも言えないが、最終的には誰かが最新のオープンモデルのようなものを載せた「箱の中のAI」を提供すると思う
これは24時間365日、最低でも20 tok/sを生成するのに相当し、実際にはそれよりずっと大きい可能性が高い
オープンウェイトモデルは、信頼できる西側のプロバイダ経由で提供されたとしても独自モデルよりはるかに安いため、同じ支出に到達するには100 tok/s超が必要かもしれず、それはデータセンターハードウェアの領域に入る
プロシューマー向けプラットフォームで前者の数値には届くかもしれないが、ごく特殊なワークロードでしか無理だ。エージェント型ワークロードで一般的なプリフィルに多くの時間を使うケースでは見通しはさらに悪い。オンプレミスAIでは大きな制約になるからだ
エンジニアがAIツールを正しく使えば生産性を大きく高められ、LLMをジュニアあるいはアソシエイトエンジニアのように使える
月1,500ドルは、そうした水準の生産性に比べればはるかに安く、人間のエンジニアを雇うならもっと多く払わなければならなかったはずだ
ロックイン効果と移行コスト がだんだん心配になってきている
Claudeを1年ほど使っていて、その中にかなり多くの「知識」を蓄積している状態だ
今後Claudeの価格性能比が不利になったら心配になりそうだ
ストレージを推論から分離する分散型の解決策を考え始めているが、現時点ではClaudeが依然として選択肢だ。同じような不安を持っている人がいるのか気になる
知識はどこに保存されているのか?
私の知識は普通、エージェントの外にある計画文書に保存されている
そして各エージェントのウィンドウはどうせ定期的にアーカイブする
従業員が自分の AI/LLM予算 を使わなかったら、その分給料を上げてもらえるのか?
大企業でオープンウェイトモデルを動かすためにセルフホスティングしたり、必ずしもオンプレミスでなくてもGPUサーバーを借りたり、Together AIのようなところでホスティングしたりするやり方が、なぜもっと一般的でないのかわからない。
オープンウェイトモデルとOpus、Gemini Proのようなプレミアムモデルを使ってみたが、後者のほうが少し良いとはいえ、価格差を正当化できるほどではまったくなかった。
自分が使った用途では差はたいてい重要ではなかったし、他のユーザーも似たような用途が多いだろうと思う。
優秀な開発者/ハッカーに強力なGPUサーバーを与えて、動かせるモデルを好きに動かさせることと、そうしたプラットフォームを会社全体向けに維持することはまったく別物。
そうしたモデルを理解して保守する人員、バックエンド、可用性などを面倒見なければならず、その人材はたいていソフトウェア開発者の給与よりはるかに高い可能性がある。
こうした追加の煩雑さのせいで、最高級の外部研究所に金を払い、全員に妥当な支出上限を付けるほうが簡単になる。
こうした巨大なラックの稼働率は24時間365日にはならないだろうし、たいてい余った計算資源でモデルを学習できるほどGPU中心の組織でもない。
価格が10万〜20万ドル以上で、寿命が約2年なら、財務的に正当化するのは難しい。
セルフホスティングも複数の開発者に減価償却していけば月1000ドル程度には簡単になり、ピーク時には厳しい速度制限が生じる。
月1500ドルから1000ドルを引いた500ドルが、「AI生産性」の10%低下を正当化するだろうか? ほとんどの場合はそうではないと思う。
短期的には、コーディング支援モデルをどうしてもセルフホスティングしなければならない非常に強い理由がない限り、上位2〜3社のコーディング支援プロバイダーのほうが良い選択だと言うだろう。
Claude Codeのライセンスを買ったせいで解雇された人はいない。
複数ユーザー向けにGPUをプールして提供し、セキュリティ統制を守りつつ文書やデータレイクに接続するだけでも相当大変だ。
結局はそれを管理するチームに金を払うことになる。
データセンターの専用ハードウェアと、それを運用する専門家が必要になる。
会社は本業に加えて、調達、資産、コスト、その他1000のことをどう管理するかを考えなければならない。
そのすべてをすでに解決しているのはどこか? AWS/Azure/OpenAIなどだ。
ハードウェア保守とサービス運用の専門家を雇うには金がかかる。
LLMモデルのようにありふれたものについては、AWSへバイトを送ることに極端に敏感な会社でない限り、自前ハードウェアでモデルを提供する理由はまったくない。
月1500ドル上限という数字そのものより、彼らが何らかの上限に到達したという事実のほうが興味深い。
私が話した大半のエンジニアリングチームは、開発者一人あたりのAI支出がいくらなのか把握していない。統合クラウド請求書に埋もれているからだ。
ハードキャップは2つの有用な会話を強制する。どのワークフローがAPI呼び出しを正当化し、どれはローカル推論で十分なのか、そして成果物が実際の生産性指標と比較されているのか、ということだ。
そうしたフィードバックループがなければ、誰がいちばん速くトークンを燃やすかの競争になるだけだ。
Anthropic: https://support.claude.com/en/articles/12883420-view-usage-a...
OpenAI: https://help.openai.com/en/articles/10875114-workspace-analy...
「ツールごとに月1500ドルの上限は、浪費に対する合理的なポリシー対応に見える」と、「自分のトークン使用量はAnthropicとOpenAIでそれぞれ月1000ドル程度だが、個人契約者向けの手厚い補助プランのおかげで、今はプロバイダーごとに100ドルしか払っていない」という流れは、マルチ商法のように感じられる。
「ダイヤモンド」たちがセミナーでMLMを宣伝して稼ぎ、底辺の志望者たちに「今AIサブスクリプションを買うことが人生の勝者になる唯一のチャンスだ」と語る構図のようだ。
MLM vs LLMでFOMOを生み出す何かがあるのかもしれない。