1 ポイント 投稿者 GN⁺ 2026-05-02 | 2件のコメント | WhatsAppで共有
  • Uberは Claude CodeCursor の利用拡大により、2026年のAI予算全額を4カ月で使い切り、生産性実験がそのまま予算見直しの問題へと直結した
  • UberのCTOは、エンジニア1人あたりの月間APIコストが 500〜2,000ドル の水準だったと明かし、エンジニアの 95% が毎月AIツールを利用していると述べた
  • Uberでコミットされたコードの 70% がAI由来であり、AIコーディングツールがエンジニアリング業務の中核フローに入り込んでいる
  • Claude Code は2025年12月にエンジニアリングチームへ展開された後、多段階タスク能力が確認され、2026年2月までに利用量が2倍に増加し、4月には年間予算をすべて使い切った
  • Cursor の利用増加は頭打ちになった一方、Claude Codeが支配的なツールとなり、Uberは年間 34億ドル のR&D支出の中でAIコーディングツールの費用を再計算しなければならない状況になった

導入拡大と予算見直し

  • Uberでは Claude CodeCursor の利用が急速に増える中、コストが急騰してもエンジニアが使うのをやめにくいほど、両ツールの価値が大きく認識されている
  • 2025年12月に Claude Code へのアクセス権がエンジニアリングチームへ配布され、多段階タスク能力が確認されたことで、2026年2月までに利用量が2倍へ増えた
  • 2026年4月にはコストが年間AI予算全額を使い切り、リーダーシップは想定外の判断を迫られる状況となった
  • UberのCTOは、同社のAI予算編成を “back to the drawing board” に戻したと明かした
広告

ツール別の利用変化

  • Cursor は採用競争に乗り出したもう1つの主要ツールだったが、利用増加は停滞した
  • Claude Code はエンジニアリングワークフローで支配的なツールになった
  • 生産性実験として始まった導入は急速に拡大し、社内のエンジニアリング業務におけるAIツール利用が本格化した

コスト圧力が意味すること

  • Uberの予想外の予算消化は、AIツールがエンジニアリング生産性にどれほど価値あるものとして受け止められているかを示している
  • 利用を制限することが、かえって非生産的に感じられるほどAIツールの役割は大きくなっている
  • より多くの開発者が Claude Code を採用するにつれ、他社も同様の影響を受けている可能性がある
  • ソフトウェア企業は、開発速度を維持しながらコストを管理しなければならない圧力に直面することになる
  • 開発者向け生産性ツールの価値が非常に高く、エンジニアが4カ月で予算全体を使い切ったのだとすれば、問題はツール自体ではなく、予算のほうが採用カーブを予測するにはあまりに早い段階で組まれていた、という結論につながる

2件のコメント

 
picopress 2026-05-03

浪費を楽しむやつ

 
GN⁺ 2026-05-02
Hacker Newsの意見
  • 会社の支出を月に一度くらい見ていると、月 $1k のトークン費用 を使う人がどんどん増えていて、いったいどうやってそんなことになるのか混乱する。
    毎日LLMを使い、最も高価なモデルで深い思考モードまで使っても、普通は $200〜$400 が上限だ。利用自体に反対するラッダイトという意味ではなく、責任ある形で月にそれだけ燃やす方法が理解しにくいということだ。月 $5k〜$10k を使う人は、それがどうやって $50k〜$100k の価値に変わるのか示してほしい。会社の立場では、年 $100k のトークン支出を正当化するより、$100〜$200/月で生産性を出すジュニアエンジニアを採るほうがよいと思う

    • 責任ある形でそんなふうに金を燃やすケースは、だいたい3つに見える。初級者は 長い会話の再利用 のせいで、コンテキスト圧縮や要約チェックポイントを作らず、エージェントが「教育された」と感じる巨大な単一会話をずっと引きずる。
      中級者は「サブエージェントを5つ立ち上げて、それぞれ別の角度から解法を分析して要約させる」みたいなパターンを知った後、中毒になりやすい。それ自体は悪い習慣ではないが、注意しないとクレジットを大きく超過する。熟練者は10本の作業ツリーをずっと並列で回し、エージェントの応答の間を行き来しながら極端なマルチタスクをするので、コストが指数関数的に増えうる
    • 第一に、「会社が許せば無駄遣いする」という当たり前の理由がある。コンテキストを頻繁に消したり圧縮したりしないことも含まれる。Opus の 1M コンテキストウィンドウ は今や存在し、200K までは品質も悪くないので、消す前までは問い合わせごとに大量のトークンを燃やす。
      コードベースが大きい、あるいは問題が複雑なのも大きい。チームに新しく入って知らない部分が多いなら、タスクを受けたときに Claude に関連コードを探させ、既存フローを理解してから変更を試させることになる。専門性はあまり積み上がらないが、Claude を使えば5日かかる仕事を1日で終えられるし、皆がそうしているなら遅れも取れない。だから1日ではなく2〜3日で終わらせつつ、コードも少しは見る中間ルートを選ぶ。特にAIのせいでコード変更の速度がものすごく上がっていて、プルリクエストをLLMに深く説明させるツールまで作った。レビューアの代わりではなく、チームの作業についていくための用途だ。まだLLMの活用法をもっと詰めてもいないし、コードベースに慣れていたらもっと多く使っていたと思う。ボトルネックは依然として適切なテストとレビューだ。重要度の低い社内コードや個人コードは、ほとんどほぼ全部AIに任せている気がするし、“superpowers” スキルを使うと基本機能でも大量のトークンを燃やす。たいてい 20〜40K トークンから始まり、終わるころには 80〜90K トークンに達するので、完了直前の複数のリクエストではほぼ 80K トークンを送っている計算になる。無駄だが、他人が払うならそうなる
    • Claude Code が問題に対して、とんでもなく トークン非効率な解法 を選ぶ例を見た。複雑な機械学習/予測問題を複数のエージェントに分けて担当させ、それぞれのエージェントが Jupyter ノートブックを使って実行し、読んでいた。
      最初は問題なかったが、あるエージェントがセル出力に数十万行を書き出して 500MB の ipynb ファイルを作り、Claude がそれを何度も読もうとしてコンテキスト上限を全部使い切った。解決策は CLI 分析スクリプトと研究結果保存フォルダを使う、より良い作業構造を決めることだったが、その計画と設計はオペレーターである自分がやる必要があった。月 $10k のトークンを使う人たちは、高価なハンマーである Claude Code で問題を怠惰に放置したまま解いているとしか思えない。たとえば毎日 Claude にすべてのメールを読ませるようなやり方だが、もっと賢い解法はまずメール本文の HTML からノイズを取り除くことだ
    • 本当に作業中のリポジトリ次第だ。非常に大きく、特にツールの多い カスタムフレームワークとAPIドキュメント を参照しなければならないなら、大きなコンテキストウィンドウが必要になり、トークンはずっと速く消費される。
      逆に小さい、あるいはモデルが学習済みの一般的なフレームワークを使っているなら、もっと小さいコンテキストウィンドウでも多くのことができ、トークン使用量もずっと少なくて済む
    • コストより クォータ の面でも同じように理解できない。200ユーロの ChatGPT プランなので、おそらく最高クォータだろうが、最も高価なモデルと最高推論、高速モードで一日中ほぼエージェントプログラミングだけをしても、上限には近づかない。
      コーディングエージェントを使い始めてから上限に近づいたのは、同じ条件でクロスプラットフォーム開発を3台のコンピューターで同時にやったときだけで、そのときも週間上限にかなり近づいた程度だった。普段は上限の約20%までは下がるが、それより低くなることはほとんどない。面白半分でプロンプトやクエリもたくさん投げているのに、これ以上使う方法がわからない
  • 今まさにAIに返答しているのは承知しているが、「会社がこのレベルの生産性をスケールで耐えられるかを把握する」という言い方はおかしい。実際に 生産的 なら売上が増えるはずで、耐えられるかどうかは問題にならないはずだ

    • その通り。生産性とは定義上、何か、できれば価値あるものを生み出すことだ。チャットボットにかかる追加コストにそれだけの価値があるかを見るべきだ。Uber がこの巨大な予算超過のおかげで劇的に効率的かつ効果的になったのか、それとも同じ仕事を移し替えるだけの、きらびやかで高価な方法を人々に与えただけなのかは疑問だ
    • 売上は増えた。Meta の最近の決算を見ると、この経済状況でも 売上 +33% だ。耐えられるかどうかは問題ではなく、Meta のような会社がエンジニアがトークンに1日 $1k 使っても気にしない理由がある。従業員1人あたりが生み出す金額と比べれば、それほど大金ではない
    • 開発者が行うすべての変更が売上を増やすわけではなく、売上を増やす変更にもたいてい 時間差 がある
    • 相手の論理を最大限好意的に見るなら、競合他社も同じツールを使って同じ生産性向上を得ているケースが反例になりうる
    • ちゃんと使えば本当に 極めて生産的 だ。来年にはこうした類似AIモデルがどれほど賢くなるのか心配になるほどだ
  • 「Uber エンジニアの95%が今では毎月AIツールを使い、コミットされたコードの70%がAI由来だ」というのは予想できる話だ。AIツールの使用が 評価 に反映されるなら、そうなる

    • 非開発者が開発者に KPI を押し付けると、これがどれだけ簡単にゲーム化されるかを過小評価しているのには驚く。AIでもプルリク数や行数カウントでも同じだ
    • KPI が「何をリリースしたか」ではなく「AIをどれだけ使ったか」になった瞬間、予算暴走は自然についてくる。人は数字を合わせようとする
    • マネージャーやVPたちが皆「AIを使わなければここでは働けない」と言えば、当然人は使うようになる
    • この批判はよくわからない。もともと会社が望み、会社が生産的だと考えることをして給料をもらうものではなかったのかと思う。そしてAI生成コードがすべて役に立たないと見ているのかも疑問だ
  • 「会社がこのレベルの生産性をスケールで耐えられるかを把握する」という部分が理解できない。予算を使い、4か月分のデータ があるのだから、何を結果として示すのかが核心だ。
    AI嫌いでもラッダイトでもなく、$200 の Max プランを使っている。それなのに Uber がこのツールを開放して全員に使うよう勧め、それがうまく動いたら、何が起きたのか混乱しているという話なのか。AIがコストに見合う生産性を出していないと判断するのは別の話だ。もしかして次に作るものが底をついたのかと思ってしまう

    • 個人向け Max と Teams のプランは、Enterprise の API 従量課金コストと比べると本当に驚くほどの特価だ。Enterprise 機能がどうしても必要だったのだろう。でなければユーザーに $200 の Max サブスクを経費精算させればよかったはずだ。企業は結局、企業らしく振る舞う
    • 今の時点では目に見えるものはない可能性が高い。外部ユーザーに見える大きな変更は、広く展開されるまでにずっと時間がかかるからだ。内部的にはさまざまな機能がもっと速く進んだのだろう。
      Salesforce でも、数週間かかっていた仕事が数日で済むように見える変化を見たことがある。これがすぐにお金に変わるわけではないが、お金を生む潜在力は増やしてくれる
    • Uber が次に何を作るのか、というのももっともな疑問だ。配車プラットフォームはあり、ちゃんと動いている。食事、食料品、「車に載るものなら何でも」の配送にも広げた。誰かが車を運転する領域 で、これ以上何が残っているのかわからない
    • 支出を制御する手段があるのに、なぜ上限をかけなかったのか理解できない。エンジニアにその支出を正当化させることもできたはずだ。
      なぜそれほど多くのトークンが必要なのか、その対価として何を得たのかを問うべきだ。これが AWS だったら、誰もが「月次支出を見てなかったのか」と責めていただろう
    • AI 議論は今や、どんな批判でも異端扱いを避けるために、まず「自分も教団の一員で、不信者ではないが」と前置きしなければならない段階に来た気がする
  • こういう記事が出ると、突然開発生産性の測定が単純だと思う人が多くなるのが興味深い。生産性が売上やコスト削減につながり、売上が測定可能なのはその通りだが、そんなに単純ではない。
    今日お金を使って将来の売上を生む機能を作るのだから、今日コストが急増しても、まだ測れる売上はない。AIで機能を今日終えたからといって、すぐにAIが生産的/非生産的だとは言えず、AIなしなら何をどれだけできたか、そのときの売上を推定しなければならない。ビジネスはしばしば 赤の女王の競走 なので、改善しなければ競合に負けて売上を失うことすらある。AI利用には重要な仕事と「今や簡単だから、とりあえずあれこれ投げてみる仕事」が混ざっていた可能性が高く、実際の生産性向上を測るには前者を残し後者を避ける方法を知る必要がある。AI賛成か反対かの話ではなく、「生産的なら測定できるはず」と雑に言うべきではない、ということだ

    • むしろ主なコンセンサスは 開発者生産性の測定 が非常に難しいという点にあると思う。測定を試みるたびに、その測定値が目標そのものになってしまい、たとえ元は堅牢な指標でも無意味になる。
      工場労働者ではない人の生産性を測るのが簡単だという発想を、どこで得たのかわからない
    • 新機能やより良いソフトウェアが Uber の売上/利益を大きく増やすことはなさそうだ
    • 選択肢は生産性ゼロか一部プラスだけではなく、負の生産性 かもしれない。Claude Code を使った経験上、組織にそれほど大量のトークンを注ぎ込むのは非生産的なだけでなく、積極的に有害である可能性すらあるので疑っている
    • 小さな生産性変化は測定しづらいが、大きな飛躍なら明確に見えたはずだ。AIが生産性に影響しているとしても、せいぜい小さい程度に見える
    • 10倍の生産性 なら間接的にでも測定できたはずで、むしろ測定を避けることはできなかったはずだ。初期の主張は明らかに誤りで、実際の研究課題は 1.0 倍を上回るかどうかだ。
      それが測定困難なのには同意する。だがこのコストを考えれば、必ず答えられなければならないし、倍率もコストを正当化するものでなければならない
  • [1] によれば Uber のエンジニアリング組織は約 5,500 人だ。支出レンジの中央値を $1,250 とすると、エンジニアリングAI支出はおおよそ $6.8M、範囲は $2.75M〜$12M になる。記事では R&D 支出が $3.4B とされている。
    AI 支出は R&D 支出の中で大きな比率ではない。4か月ベースで 0.3%、年換算で 1% 程度だ。計画していなかったなら予算上は小銭ではないが、文脈としてはそこまで大きくない。本当の問いは、その金額で何を得たかだ。記事はコードコミットの70%がAI生成だと主張しているので、おそらくレビューとテストは通ったのだろう。機能数が増えたのか、品質問題が減ったのか、ほかの利点があったのかが重要だ。残念ながら記事は支出増以外の結果を語っていない。4か月は利点を評価するには早すぎるのかもしれない。一方でアジャイルの世界なら話は別かもしれない。[1] https://www.unifygtm.com/insights-headcount/uber

    • 実際の出典 https://www.theinformation.com/newsletters/applied-ai/uber-c... には、「バックエンドシステムの実際の本番コード更新のうち約 11% が、主に Claude Code を使って構築されたAIエージェントによって書かれており、3か月前には 1% 未満の一部にすぎなかった」とある。
      また「会社のソフトウェア予算やAIコーディングツール支出の正確な数字は公開していない」ともある
    • この記事のすべてが完全な作り話に見える。数字が合わず、報じられた情報とも一致せず、ただの捏造だ
  • ブートストラップしている立場からすると、大企業エンジニアをうらやましく思うことは多いが、インセンティブ が壊れているのではという懸念もある。
    もし自分が Uber のエンジニアなら、小さな変更でも gpt 5.5 pro @ very high thinking + fast mode をプロンプトに入れない理由がない。最も強力で、したがって最も高価なモデルを使わない動機がない。画像→HTML 変換のテストでこういうプロンプトを1つ使ってみたら、単一プロンプトで $40 かかった。自腹ならまず絶対に使わない設定だろうが、大企業で他人が払ってくれるなら頻繁に回すだろう。出力が明らかに良かったからだ。エンジニアは何を届けたかで評価され、プロセスのコストでは評価されない。安くやる方法はあっても、エンジニアにはそうするインセンティブがない

    • ソフトウェアエンジニアは高い。年収中央値は $133k で、健康保険や給与税などは含まれていない。$40 の LLM クレジットで開発時間を1時間短縮できるなら、使わないより $26.50 安い計算になる。
      実際にそうなるかはまだ確信していないが、理屈としてはそういうことだ。LLM コストを下げようとするのも諸刃の剣だ。開発者が節約した LLM コストが、その人件費より大きくなければならないからだ。1日かけて呼び出しあたり $1 を削減しても、給与コストを回収するのにほぼ2年かかる。しかも LLM は変化が速すぎて、その解決策が2年以内に無意味にならないと確信しにくい。2年後にまだツール呼び出しをしているのか、推論モードが残っているのか、最先端プロバイダー自身にもわからないだろう
    • 会社はまず作業をどれだけ速く拡張できるかを見て、その後で効率化のために絞り込みたくなるかもしれない
    • 画像→HTML はかなり複雑な作業だ。実質的にはフロントエンド開発者の仕事で、$40 では彼らの1時間分にもならない
  • 経営陣がソフトウェアエンジニアリングをエージェントで置き換えられると考えることが一般的になるほど、平均的なソフトウェアエンジニアに対する非現実的な認識に基づいて意思決定していないか気になる。
    一方では、入れたものしか出てこないという面がある。賢い CTO はエージェントでできることに非常に興奮し、すべてのエンジニアも同じことができると錯覚するかもしれない。実際には、組織の平均的なエンジニアには、どこで仕事を減らせるかを思いつく創造性すらないことがある。だからエージェント利用を義務化すると、生産性は上がらずAIコストだけが増える可能性がある。もう一方では、AIを使うと2つのギャップがより鮮明になる。誰がエージェントに何をさせるのか、そして QA/レビューのサイクルをどう捌くのかだ。多くの組織では、プロダクト担当は LLM が使えるほど詳細な仕様や計画を作るだけの技術力がなく、歯車のような開発者は仕様を作る立場ではなく実装だけをしたがる。エージェントを使う開発者が実装するだろうと期待すると、むしろ仕事が来るのを待つだけの遊休人員が増えるかもしれない。既存開発者の速度と品質を高める選択的な LLM 導入には賛成だが、「組織を再編しよう」という流れは、特に中小規模の会社にはかなり危険だ

    • それ以上に、AI は 力の増幅器 であり、その力がプラスかマイナスかを気にしない。ソフトウェアエンジニアリング原則が悪い人がAIを使えば、あっという間に完全な大混乱を作れる
    • 2番目に関連して、うちの会社は開発者がプロダクトマインドを持ち、単なる歯車でなくなるよう強く後押ししている。
      自分は他の開発者よりプロダクトマインドが強いので偏りはあるが、こういう人たちがエージェントでより生産的になれる位置にいると思う。エージェントで実装できるだけの技術を知り、何を実装すべきかがわかるほどプロダクトも理解しているからだ。他社も追随すると予想している
    • 結局のところ、大規模な人員削減を意味している
  • Uber が何を開発しているのかわからない。アプリと配車バックエンドがあり、どちらもそこそこ動いている。なぜそんなに多く使うのか疑問だ。
    自動運転 は諦めたのだから、それではないはずだ

    • 本当に過小評価されている疑問だ。現代のテック企業があれだけのリソースでいったい何をしているのかをよく示している。Elon が Twitter チームの大半を削減し、初期のひどい試行錯誤の後でも、人員80%減の状態でほぼうまく回っていたのではないか
    • 「どちらもそこそこ動いている」ならいいが、実際はそうでもない。マッチングアルゴリズムの最適化のせいでユーザー体験がひどく悪くなり、今では定期的に Lyft を使っている
    • 「X はただの Y なのに、なぜこんなに複雑なんだ」という類いのコメントは HN でいちばん陳腐だ。嫌いな大企業の記事が出るたびにこういうふうに書くのは怠慢だし、読んでいて退屈だ
  • API トークンでは、特に 1M コンテキスト を使っていて、古いコンテキストを慎重に消さないと、1セッションで数百ドルを吹き飛ばすのはとても簡単だ。
    それなのにサブスクでは同じ使用量を月数百ドルで許容している。Anthropic は API ユーザーにものすごく高く請求しているか、サブスクを大きく補助しているか、その両方のようだ

    • https://www.forbes.com/sites/annatong/2026/03/05/cursor-goes...
      「Cursor は昨年、月 $200 の Claude Code サブスクで最大 $2,000 相当の計算資源が使えると見積もっており、これは Anthropic のかなりの補助を示唆していた。現在はその補助がさらに攻めているようで、$200 プランで約 $5,000 相当の計算資源を消費できる」
    • Anthropic はかなり「興味深い」ビジネスモデルを持っている。従業員が 150人以下 の間はサブスク価格を取るが、151人になった瞬間、全従業員が一夜にして API 価格に切り替わり、請求総額が即座に何倍にも膨らむ。
      安いトークンに依存させ、規模が大きくなったら回収するやり方だ。Uber は定価より割引を受けているだろうが、150人以下のサブスク価格に近いわけではないはずだ
    • 価格を見直してみたが、Team から Enterprise に飛ぶことを正当化できなかった。Enterprise に行くと月額サブスクが完全になくなり、コストを統制する力を失う。
      ユーザーごとの上限は設定できても、月次のローリング上限がなければ、チームメンバーに「今月の残り期間はAIなしだ」と言わなければならない状況になる。現行の構造ではかなり危険な取引だと思う