Uber、Claude Codeで2026年のAI予算を4カ月で使い切る
(briefs.co)- Uberは Claude Code と Cursor の利用拡大により、2026年のAI予算全額を4カ月で使い切り、生産性実験がそのまま予算見直しの問題へと直結した
- UberのCTOは、エンジニア1人あたりの月間APIコストが 500〜2,000ドル の水準だったと明かし、エンジニアの 95% が毎月AIツールを利用していると述べた
- Uberでコミットされたコードの 70% がAI由来であり、AIコーディングツールがエンジニアリング業務の中核フローに入り込んでいる
- Claude Code は2025年12月にエンジニアリングチームへ展開された後、多段階タスク能力が確認され、2026年2月までに利用量が2倍に増加し、4月には年間予算をすべて使い切った
- Cursor の利用増加は頭打ちになった一方、Claude Codeが支配的なツールとなり、Uberは年間 34億ドル のR&D支出の中でAIコーディングツールの費用を再計算しなければならない状況になった
導入拡大と予算見直し
- Uberでは Claude Code と Cursor の利用が急速に増える中、コストが急騰してもエンジニアが使うのをやめにくいほど、両ツールの価値が大きく認識されている
- 2025年12月に Claude Code へのアクセス権がエンジニアリングチームへ配布され、多段階タスク能力が確認されたことで、2026年2月までに利用量が2倍へ増えた
- 2026年4月にはコストが年間AI予算全額を使い切り、リーダーシップは想定外の判断を迫られる状況となった
- UberのCTOは、同社のAI予算編成を “back to the drawing board” に戻したと明かした
ツール別の利用変化
- Cursor は採用競争に乗り出したもう1つの主要ツールだったが、利用増加は停滞した
- Claude Code はエンジニアリングワークフローで支配的なツールになった
- 生産性実験として始まった導入は急速に拡大し、社内のエンジニアリング業務におけるAIツール利用が本格化した
コスト圧力が意味すること
- Uberの予想外の予算消化は、AIツールがエンジニアリング生産性にどれほど価値あるものとして受け止められているかを示している
- 利用を制限することが、かえって非生産的に感じられるほどAIツールの役割は大きくなっている
- より多くの開発者が Claude Code を採用するにつれ、他社も同様の影響を受けている可能性がある
- ソフトウェア企業は、開発速度を維持しながらコストを管理しなければならない圧力に直面することになる
- 開発者向け生産性ツールの価値が非常に高く、エンジニアが4カ月で予算全体を使い切ったのだとすれば、問題はツール自体ではなく、予算のほうが採用カーブを予測するにはあまりに早い段階で組まれていた、という結論につながる
2件のコメント
浪費を楽しむやつ
Hacker Newsの意見
会社の支出を月に一度くらい見ていると、月 $1k のトークン費用 を使う人がどんどん増えていて、いったいどうやってそんなことになるのか混乱する。
毎日LLMを使い、最も高価なモデルで深い思考モードまで使っても、普通は $200〜$400 が上限だ。利用自体に反対するラッダイトという意味ではなく、責任ある形で月にそれだけ燃やす方法が理解しにくいということだ。月 $5k〜$10k を使う人は、それがどうやって $50k〜$100k の価値に変わるのか示してほしい。会社の立場では、年 $100k のトークン支出を正当化するより、$100〜$200/月で生産性を出すジュニアエンジニアを採るほうがよいと思う
中級者は「サブエージェントを5つ立ち上げて、それぞれ別の角度から解法を分析して要約させる」みたいなパターンを知った後、中毒になりやすい。それ自体は悪い習慣ではないが、注意しないとクレジットを大きく超過する。熟練者は10本の作業ツリーをずっと並列で回し、エージェントの応答の間を行き来しながら極端なマルチタスクをするので、コストが指数関数的に増えうる
コードベースが大きい、あるいは問題が複雑なのも大きい。チームに新しく入って知らない部分が多いなら、タスクを受けたときに Claude に関連コードを探させ、既存フローを理解してから変更を試させることになる。専門性はあまり積み上がらないが、Claude を使えば5日かかる仕事を1日で終えられるし、皆がそうしているなら遅れも取れない。だから1日ではなく2〜3日で終わらせつつ、コードも少しは見る中間ルートを選ぶ。特にAIのせいでコード変更の速度がものすごく上がっていて、プルリクエストをLLMに深く説明させるツールまで作った。レビューアの代わりではなく、チームの作業についていくための用途だ。まだLLMの活用法をもっと詰めてもいないし、コードベースに慣れていたらもっと多く使っていたと思う。ボトルネックは依然として適切なテストとレビューだ。重要度の低い社内コードや個人コードは、ほとんどほぼ全部AIに任せている気がするし、“superpowers” スキルを使うと基本機能でも大量のトークンを燃やす。たいてい 20〜40K トークンから始まり、終わるころには 80〜90K トークンに達するので、完了直前の複数のリクエストではほぼ 80K トークンを送っている計算になる。無駄だが、他人が払うならそうなる
最初は問題なかったが、あるエージェントがセル出力に数十万行を書き出して 500MB の
ipynbファイルを作り、Claude がそれを何度も読もうとしてコンテキスト上限を全部使い切った。解決策は CLI 分析スクリプトと研究結果保存フォルダを使う、より良い作業構造を決めることだったが、その計画と設計はオペレーターである自分がやる必要があった。月 $10k のトークンを使う人たちは、高価なハンマーである Claude Code で問題を怠惰に放置したまま解いているとしか思えない。たとえば毎日 Claude にすべてのメールを読ませるようなやり方だが、もっと賢い解法はまずメール本文の HTML からノイズを取り除くことだ逆に小さい、あるいはモデルが学習済みの一般的なフレームワークを使っているなら、もっと小さいコンテキストウィンドウでも多くのことができ、トークン使用量もずっと少なくて済む
コーディングエージェントを使い始めてから上限に近づいたのは、同じ条件でクロスプラットフォーム開発を3台のコンピューターで同時にやったときだけで、そのときも週間上限にかなり近づいた程度だった。普段は上限の約20%までは下がるが、それより低くなることはほとんどない。面白半分でプロンプトやクエリもたくさん投げているのに、これ以上使う方法がわからない
今まさにAIに返答しているのは承知しているが、「会社がこのレベルの生産性をスケールで耐えられるかを把握する」という言い方はおかしい。実際に 生産的 なら売上が増えるはずで、耐えられるかどうかは問題にならないはずだ
「Uber エンジニアの95%が今では毎月AIツールを使い、コミットされたコードの70%がAI由来だ」というのは予想できる話だ。AIツールの使用が 評価 に反映されるなら、そうなる
「会社がこのレベルの生産性をスケールで耐えられるかを把握する」という部分が理解できない。予算を使い、4か月分のデータ があるのだから、何を結果として示すのかが核心だ。
AI嫌いでもラッダイトでもなく、$200 の Max プランを使っている。それなのに Uber がこのツールを開放して全員に使うよう勧め、それがうまく動いたら、何が起きたのか混乱しているという話なのか。AIがコストに見合う生産性を出していないと判断するのは別の話だ。もしかして次に作るものが底をついたのかと思ってしまう
Salesforce でも、数週間かかっていた仕事が数日で済むように見える変化を見たことがある。これがすぐにお金に変わるわけではないが、お金を生む潜在力は増やしてくれる
なぜそれほど多くのトークンが必要なのか、その対価として何を得たのかを問うべきだ。これが AWS だったら、誰もが「月次支出を見てなかったのか」と責めていただろう
こういう記事が出ると、突然開発生産性の測定が単純だと思う人が多くなるのが興味深い。生産性が売上やコスト削減につながり、売上が測定可能なのはその通りだが、そんなに単純ではない。
今日お金を使って将来の売上を生む機能を作るのだから、今日コストが急増しても、まだ測れる売上はない。AIで機能を今日終えたからといって、すぐにAIが生産的/非生産的だとは言えず、AIなしなら何をどれだけできたか、そのときの売上を推定しなければならない。ビジネスはしばしば 赤の女王の競走 なので、改善しなければ競合に負けて売上を失うことすらある。AI利用には重要な仕事と「今や簡単だから、とりあえずあれこれ投げてみる仕事」が混ざっていた可能性が高く、実際の生産性向上を測るには前者を残し後者を避ける方法を知る必要がある。AI賛成か反対かの話ではなく、「生産的なら測定できるはず」と雑に言うべきではない、ということだ
工場労働者ではない人の生産性を測るのが簡単だという発想を、どこで得たのかわからない
それが測定困難なのには同意する。だがこのコストを考えれば、必ず答えられなければならないし、倍率もコストを正当化するものでなければならない
[1] によれば Uber のエンジニアリング組織は約 5,500 人だ。支出レンジの中央値を $1,250 とすると、エンジニアリングAI支出はおおよそ $6.8M、範囲は $2.75M〜$12M になる。記事では R&D 支出が $3.4B とされている。
AI 支出は R&D 支出の中で大きな比率ではない。4か月ベースで 0.3%、年換算で 1% 程度だ。計画していなかったなら予算上は小銭ではないが、文脈としてはそこまで大きくない。本当の問いは、その金額で何を得たかだ。記事はコードコミットの70%がAI生成だと主張しているので、おそらくレビューとテストは通ったのだろう。機能数が増えたのか、品質問題が減ったのか、ほかの利点があったのかが重要だ。残念ながら記事は支出増以外の結果を語っていない。4か月は利点を評価するには早すぎるのかもしれない。一方でアジャイルの世界なら話は別かもしれない。[1] https://www.unifygtm.com/insights-headcount/uber
また「会社のソフトウェア予算やAIコーディングツール支出の正確な数字は公開していない」ともある
ブートストラップしている立場からすると、大企業エンジニアをうらやましく思うことは多いが、インセンティブ が壊れているのではという懸念もある。
もし自分が Uber のエンジニアなら、小さな変更でも
gpt 5.5 pro @ very high thinking + fast modeをプロンプトに入れない理由がない。最も強力で、したがって最も高価なモデルを使わない動機がない。画像→HTML 変換のテストでこういうプロンプトを1つ使ってみたら、単一プロンプトで $40 かかった。自腹ならまず絶対に使わない設定だろうが、大企業で他人が払ってくれるなら頻繁に回すだろう。出力が明らかに良かったからだ。エンジニアは何を届けたかで評価され、プロセスのコストでは評価されない。安くやる方法はあっても、エンジニアにはそうするインセンティブがない実際にそうなるかはまだ確信していないが、理屈としてはそういうことだ。LLM コストを下げようとするのも諸刃の剣だ。開発者が節約した LLM コストが、その人件費より大きくなければならないからだ。1日かけて呼び出しあたり $1 を削減しても、給与コストを回収するのにほぼ2年かかる。しかも LLM は変化が速すぎて、その解決策が2年以内に無意味にならないと確信しにくい。2年後にまだツール呼び出しをしているのか、推論モードが残っているのか、最先端プロバイダー自身にもわからないだろう
経営陣がソフトウェアエンジニアリングをエージェントで置き換えられると考えることが一般的になるほど、平均的なソフトウェアエンジニアに対する非現実的な認識に基づいて意思決定していないか気になる。
一方では、入れたものしか出てこないという面がある。賢い CTO はエージェントでできることに非常に興奮し、すべてのエンジニアも同じことができると錯覚するかもしれない。実際には、組織の平均的なエンジニアには、どこで仕事を減らせるかを思いつく創造性すらないことがある。だからエージェント利用を義務化すると、生産性は上がらずAIコストだけが増える可能性がある。もう一方では、AIを使うと2つのギャップがより鮮明になる。誰がエージェントに何をさせるのか、そして QA/レビューのサイクルをどう捌くのかだ。多くの組織では、プロダクト担当は LLM が使えるほど詳細な仕様や計画を作るだけの技術力がなく、歯車のような開発者は仕様を作る立場ではなく実装だけをしたがる。エージェントを使う開発者が実装するだろうと期待すると、むしろ仕事が来るのを待つだけの遊休人員が増えるかもしれない。既存開発者の速度と品質を高める選択的な LLM 導入には賛成だが、「組織を再編しよう」という流れは、特に中小規模の会社にはかなり危険だ
自分は他の開発者よりプロダクトマインドが強いので偏りはあるが、こういう人たちがエージェントでより生産的になれる位置にいると思う。エージェントで実装できるだけの技術を知り、何を実装すべきかがわかるほどプロダクトも理解しているからだ。他社も追随すると予想している
Uber が何を開発しているのかわからない。アプリと配車バックエンドがあり、どちらもそこそこ動いている。なぜそんなに多く使うのか疑問だ。
自動運転 は諦めたのだから、それではないはずだ
API トークンでは、特に 1M コンテキスト を使っていて、古いコンテキストを慎重に消さないと、1セッションで数百ドルを吹き飛ばすのはとても簡単だ。
それなのにサブスクでは同じ使用量を月数百ドルで許容している。Anthropic は API ユーザーにものすごく高く請求しているか、サブスクを大きく補助しているか、その両方のようだ
「Cursor は昨年、月 $200 の Claude Code サブスクで最大 $2,000 相当の計算資源が使えると見積もっており、これは Anthropic のかなりの補助を示唆していた。現在はその補助がさらに攻めているようで、$200 プランで約 $5,000 相当の計算資源を消費できる」
安いトークンに依存させ、規模が大きくなったら回収するやり方だ。Uber は定価より割引を受けているだろうが、150人以下のサブスク価格に近いわけではないはずだ
ユーザーごとの上限は設定できても、月次のローリング上限がなければ、チームメンバーに「今月の残り期間はAIなしだ」と言わなければならない状況になる。現行の構造ではかなり危険な取引だと思う