TPU vs. GPU、そしてGoogleが長期的にAI競争で勝利できる理由

(uncoveralpha.com)

7 ポイント投稿者 GN⁺ 2025-11-28 | 1件のコメント | WhatsAppで共有

Google TPUは、大規模なAI推論負荷を処理するために設計された専用ASICチップで、GPUに比べて効率性とコスト競争力を確保
Systolic Arrayアーキテクチャによりメモリアクセスを最小化し、**演算効率（Operations per Joule）**を最大化している点が中核的な差別化要因
最新の**TPUv7（Ironwood）**は、前世代比で性能とメモリ帯域幅が飛躍的に向上し、Nvidia Blackwell GPUと同等水準の性能を達成
TPUのエコシステム上の制約とGCP専用提供という構造が普及の主要な障害要因だが、Googleは外部顧客拡大に向けた組織再編と支援強化を進めている
自社チップによるクラウドのマージン回復と競争力強化を通じて、Googleが長期的にAIインフラ市場の主要な勝者となる可能性がある

TPUの歴史と開発背景

2013年、Googleは音声検索の利用増加により、データセンター容量を2倍必要とするという試算結果を得た
- 既存のCPU・GPUでは、**ディープラーニング計算（大規模な行列積）**を効率的に処理することが難しかった
これを受けてGoogleは、TensorFlowニューラルネットワーク専用ASICの開発を決定し、15か月でシリコンをデータセンターに配備
2015年にはすでに、Google Maps、Photos、Translateなど主要サービスにTPUが適用
2016年のGoogle I/Oで正式公開され、その後TPUはAI推論コスト削減のための中核インフラへと発展

TPUとGPUの構造的な違い

GPUは汎用並列プロセッサ、TPUはドメイン特化型アーキテクチャ
- GPUはグラフィックス処理向けに設計されており、キャッシュや分岐予測などの複雑な制御ロジックを含む
- TPUはそれらを取り除き、Systolic Array構造でデータ移動を最小化
TPUのSystolic Arrayは、データを一度ロードした後、連続した演算フローで受け渡し、Von Neumannボトルネックを解消
**Ironwood（第7世代）**の改善点
- SparseCore強化により大規模埋め込み処理の効率が向上
- HBM容量192GB、帯域幅7,370GB/sへ増加
- **Inter-Chip Interconnect（ICI）**の性能向上、最大1.2TB/s帯域幅
GoogleはOptical Circuit Switch（OCS）と3D torusネットワークで大規模TPU Podを構成
- 電力効率は高いが、柔軟性はInfiniBandに比べて低い

TPU vs GPU 性能比較

**TPUv7（BF16 4,614 TFLOPS）はTPUv5p（459 TFLOPS）**に対して約10倍の性能向上
業界インタビューの要約
- TPUは性能あたりの電力効率とコスト効率で優位
- 特定アプリケーションでは1.4倍高い性能/ドルを達成
- TPUv6はGPU比で60〜65%の効率優位、前世代は40〜45%
- TPUは発熱と消費電力が少なく、環境負荷も低い
一部顧客はTPU Pod利用時にコストを5分の1水準まで削減可能
ASIC構造により、サイズ30%縮小、電力50%削減の効果も言及
Googleの内部資料によれば、TPUv7はTPUv6e比でワットあたり性能が2倍向上
Nvidia CEO Jensen HuangもTPUを「特殊なケース」と評価し注目

TPU導入を阻む課題

第1の障壁はエコシステム（CUDAの独占）
- 大学・産業界ともにCUDA中心で教育・開発が進んでいる
- TPUはJAX・TensorFlow中心で、PyTorch対応は比較的遅れて強化された
マルチクラウド戦略の拡大も制約
- 多くの企業はAWS/Azure/GCPにデータが分散しており、データ移動コスト（egress）が大きいためGPUベースのワークロードの方が柔軟
- TPUはGCP専用だが、Nvidiaは主要3クラウドすべてで利用可能
TPUを選択した後に価格が変わったり環境が変化したりすると、書き換えコストが非常に大きい
Googleはようやく外部販売・普及に向けた組織を拡大しており、一部の現職・元関係者は今後ネオクラウドなどを通じた外部供給の可能性に言及している

TPUとGoogle Cloudの戦略的価値

AI時代のクラウド産業は、**高マージン構造（50〜70%）→低マージン（20〜35%）**へ移行中
- 原因はNvidiaの75%マージンによるコスト圧力
自社ASIC（特にTPU）を保有する事業者だけが、**従来型クラウドマージン（50%台）**へ回帰可能
Googleの優位性
- TPUは最も成熟したクラウド向けASIC
- GoogleはRTLなどチップ設計のフロントエンドの大半を内製
- Broadcomは物理設計（バックエンド）のみを担当し、マージン構造はNvidiaより低いためTPUのコスト競争力が高まる
- Googleはソフトウェア最適化スタック全体を保有し、ハードウェア性能を最大化
TPU基盤でGemini 3など主要モデルの学習と推論を実行
- 社内AIサービス全般でTPU活用を拡大
SemiAnalysisは「Googleの第7世代TPUはNvidia Blackwellと同格の水準」と評価
TPUはGCPの長期的な競争優位であり、AIインフラ市場シェア拡大の中核的な原動力と評価される

1件のコメント

GN⁺ 2025-11-28

Hacker Newsの意見

Googleの本当の武器はTPUシリコンそのものではなく、OCS(Optical Circuit Switch)インターコネクトによる大規模並列スケーラビリティだという意見 The Next Platformの引用によれば、Ironwood TPU 9,216基を接続して1.77PBのHBMメモリを活用できる。これはNvidiaのBlackwell GPUベースのラックスケールシステム(20.7TB HBM)と比べて圧倒的な規模 Nvidiaは単一チップレベルでは優れているが、大規模分散学習や推論ではGoogleの光スイッチングによるスケーラビリティに匹敵するものがない
- Googleは垂直統合スタック全体を保有している。そのおかげでAIサービスをクラウド規模で、はるかに安価かつ収益性高く提供できるほとんどの企業はハードウェアを直接購入したりモデルを訓練したりする必要はなく、Googleが提供するAIアプリストアのようなサービスを使えばよい
- 実際には両者のシステムはネットワーク構造がまったく異なる。NvidiaのNVLinkはall-to-allスイッチ型ファブリック、TPUは3Dトーラス構造たとえばMixture of Expertsモデルはall-to-all通信が多く、NVLink側のほうがはるかに効率的
- Nvidiaは依然として自社技術のほうが優れていると主張するツイートを投稿している Nvidia公式ツイートへのリンク
- もしGoogleの主張が事実ならMLPerfベンチマークで圧倒していなければならないが、実際はそうではないモデル並列化には高速で小規模なネットワークが、データ並列化には大規模なネットワークが有利。このバランスのためNvidiaが勝っている
- 同じメモリ容量をそろえるにはGoogleはチップ数が100倍必要になる
Gemini 3 Proはすでに旧世代に近い。GoogleはAnthropicよりはるかに多くの資源を持っているのに、ハードウェアが秘密兵器ならすでに市場を掌握しているはずだという意見しかし現実は違う
1. ハードウェアを効率的に活用するのは難しく、最適化が終わるころにはすでに次のモデルへ移っている
2. ほとんどの企業は金で解決できる。H100でも十分によく動く
3. 新しい研究手法だけでもモデル性能を大きく高められる
4. モデル開発は依然としてデータセットの精製と評価作業のような人的労働が多い
5. カスタムハードウェアはカスタムな問題を生む。TPUクラスタの問題はStack Overflowで答えが見つかるわけではない
CUDAは学習には重要だが、推論段階ではそれほど重要ではないという意見もある
- NVIDIAチップはより汎用的。学習中にはsin、cosのような特殊演算、中間計算の保存、勾配処理など多様な機能が必要しかし推論は固定された重みを繰り返し適用する単純な過程なので、TPUのほうが効率的かもしれない
- 学習用チップ市場はバブルかもしれないが、推論市場ははるかに大きい。いつかモデル性能が十分になれば学習需要は減り、電力効率の高い推論システムが主流になるだろう
- CUDAが重要な理由はエコシステム依存にある。ほとんどの学習用ソフトウェアがCUDAベースで作られている
- 学習は巨大な問題を分割し、データ依存性を管理する過程であり、推論は独立した小さな問題の集合
- CUDAは開発者体験がはるかに良い。研究生産性が重要なときはこれが決定的
NvidiaがTPUのような特化チップを作れない理由はない
- Nvidiaも結局はそうするだろう。ただしGoogleはチップ設計者でありAI企業でもあるため、利益をすべて自ら取り込める NvidiaはTSMCに委託生産して高値で販売するが、Googleは自社利用なのでマージンを節約できる
- DeepMindはTPUチームと直接協業してプロジェクト特化型チップを設計している。OpenAIも同じ理由で独自チップ開発を発表したが、これは非常に資本集約的
- TPUはNVIDIA GPUより安く、Google内部向けに垂直統合されている
- Nvidiaにとってのリスクは存在論的危機というより利益率の低下。チップ販売量が100倍になってもマージンが5%まで落ちれば時価総額は縮小する
- 実際、NvidiaはすでにTensor Coreで同じ方向へ進化している
MetaがGoogleチップに数十億ドル規模の投資を協議中だというReuters報道がある
LLM向けASICは暗号通貨向けASICよりはるかに複雑。暗号通貨は固定されたハッシュアルゴリズムだけ処理すればよいが、LLMは進化し続けるこの文脈でTPUが何を意味するのか分かりにくいという意見
- LLMではメモリとインターコネクト帯域幅が重要。一方で暗号通貨は100%計算中心
- ほとんどのLLMは行列乗算中心なので、TPUはこれを高速化する。PyTorchにもTPUサポートがある
- ASICであってもプログラマブルでありうる。TPUは多様なモデルを実行する必要があるため、ハードコードされたチップとは異なる
- LLMの構造は変化しても、共通構成要素(行列演算、浮動小数点型)は同じ。したがってTPUは事実上LLM向けASIC
- 暗号通貨も変化する。たとえばMoneroはASICを防ぐためCPUレベルの構造を使っている
個人向けのスタンドアロンTPUの選択肢がもっと増えてほしい。現状では2019年製のCoralが唯一の選択肢
この議論はRISC vs CISCのように学究的。Nvidia GPUも結局はTPUと同じことをするよう設計されつつある Google内部でも5年後には大きな違いがないかもしれない GoogleはTPUで利益を得るが、外部開発者には直接的な恩恵がない
- GoogleがTPUを販売していないのは事実だが、他社も独自チップを開発中 MicrosoftのMaia、AMD/NVIDIAのデータセンター向けチップ、そしてネットワーク専門企業の買収など、皆が同じ方向へ進んでいる Googleが先行しているが、最終的には収束的な競争になるだろう
疎モデル(sparse model) は同じ品質を維持しながら計算量と保存容量を16分の1に減らせる TPUは疎行列処理には弱いが、密(dense)モデルの学習には強い
- ただしTPUにはSparseCoreという専用ハードウェアが含まれている TPUシステムアーキテクチャ文書 OpenXLA SparseCore紹介
結局、この競争のゴールはどこなのか、あるいは下限はどこなのかという問いが残る

TPU vs. GPU、そしてGoogleが長期的にAI競争で勝利できる理由

TPUの歴史と開発背景

TPUとGPUの構造的な違い

TPU vs GPU 性能比較

TPU導入を阻む課題

TPUとGoogle Cloudの戦略的価値

関連記事

1件のコメント

Hacker Newsの意見