GoogleのTensor Processing Unitを理解する

(considerthebulldog.com)

26 ポイント投稿者 GN⁺ 2025-12-15 | 3件のコメント | WhatsAppで共有

TPUは、ディープラーニングに本当に必要な計算だけを残し、それ以外を大胆に捨てたGoogleのドメイン特化アクセラレータ
2013年のデータセンター拡張の限界をきっかけに始まり、12年で第7世代の「Ironwood」へと発展
半導体性能が自動的に向上していた時代が終わり、待たずに自ら設計する戦略が重要な選択肢になった
TPUは1つのチップではなく、ハードウェア・コンパイラ・ネットワーク・運用ソフトウェアの共同設計システムである
世代を重ねるごとに、性能競争よりも**電力・配置・運用コスト（TCO）**が設計の中心へ移っている
TPUの競争力は単一の技術ではなく、10年以上にわたって蓄積された設計・運用経験の総和にある

Something New

TPUは秘密兵器ではなく、長年の公開研究と社内での反復によって磨かれた成果物である
Googleはデータセンターを拡張し続ける代わりに、計算のやり方そのものを根本から変える道を選んだ
2013年ごろ、データセンター容量を2倍に増やさなければならない圧力と時間制約が、15か月でのTPU誕生につながった
2025年4月のGoogle Cloud Nextで第7世代TPU Ironwoodを発表、9,216チップ/pod、42.5 Exaflops、10MWという数値を提示
GPUはディープラーニングのために作られた装置ではなく、TPUは最初からニューラルネットワーク計算を前提に設計された
この選択によって、計算性能だけでなく電力効率と運用安定性でも構造的な優位性を確保した
「偶然」ではなく、制約・トレードオフ・共同設計の反復によって積み上がった結果

Slowing Down

Moore’s LawとDennard Scalingの弱まりにより、以前は新しいCPUを待つだけでプログラムが高速化したが、その前提は崩れた
トランジスタの増加は続いているが、電力・発熱の限界が性能向上を阻んでいる
同時にニューラルネットワークは、より大きなデータとより大きなモデルを求め、計算需要が爆発的に増加している
その結果、「あらゆる仕事をそこそこうまくこなすチップ」よりも、**「1つの仕事を極端にうまくこなすチップ」**が必要になった
ニューラルネットワーク計算の核心が、行列積中心の反復演算であることが特化設計を可能にした

The Inference Chip

最初のTPUは学習ではなく、推論（Inference）、つまりすでに学習済みのモデル実行に集中していた
TPUv1はキャッシュ・分岐予測・マルチスレッディングを取り除き、制御コストを最小化した
その代わり、**大規模な行列積を休みなく処理するSystolic Array（MXU）**にすべての資源を集中した
実行中に判断を行わず、コンパイル時点で確定した実行順序にそのまま従う
その結果、同じ電力でGPU・CPUと比べてはるかに多くの推論処理をこなせた

The Training Chip

学習は推論よりはるかに多くの計算と、より広い数値表現範囲を必要とする
TPUv2以降は、推論専用の構造を超えて学習のための柔軟性が追加された
重要な変化は、行列（MXU）・ベクトル（VPU）・制御（Scalar Unit）の役割分担である
実行フローはXLAコンパイラが事前に計算して決定し、チップはそれをそのまま実行する
複数のTPUが1つの装置のように動作するよう、**専用の高速インターコネクト（ICI）**も合わせて設計された

Scaling Up

システムが大規模化するにつれ、問いは「どれだけ速いか」から**「どれだけ長く、安く回せるか」**へと移った
そのために、演算装置の近くに**大容量オンチップメモリ（CMEM）**を置き、遅いDRAMアクセスを減らす
レコメンデーションシステムのように疎なデータが多い処理向けには、SparseCoreのような専用ユニットも導入された
チップ内通信とチップ間通信を分離し、配線の複雑さとボトルネックを構造的に緩和する
性能指標よりも、運用効率が設計全体を左右するようになった

Island Hopping

数千個のTPUを使う環境では、故障は例外ではなく前提である
目標は止まらないシステム、つまり部分的な障害を吸収する構造である
処理は複数のTPUに分散して実行されるが、1つのプログラムのように見えるよう管理される
問題が起きても全体を止めるのではなく、迅速な再配置と再起動を選ぶ
この複雑な過程の大半は、運用ソフトウェアが自動的に処理する

Datacenter Network拡張

1つのTPUクラスタだけでは足りなくなると、複数のクラスタを接続する必要がある
一般的なネットワークでは限界があるため、**光ベースのスイッチング（OCS）**が導入された
これにより、データセンター全体を1つの巨大な計算資源のように構成できるようになった
既存の実行モデルを拡張する方式と、**まったく新しい非同期実行モデル（Pathways）**が共存する
より大きなモデルと、より複雑な通信パターンに対応できるようになった

Ceci n’est pas une TPU

最新のTPUは数値だけ見れば圧倒的だが、中核原則は初期と同じである
必要な計算に集中し、不要な複雑さを取り除くという方向性は維持されている
ハードウェア仕様だけでは、このシステムを複製することはできない
コンパイラ（XLA）、専用インターコネクト（ICI）、光スイッチング（OCS）、運用スケジューラが一体となって動作しなければならない
TPUは一度の発明ではなく、何百回もの平凡な選択が積み重なった結果である

必ず覚えておきたい主要技術いくつか

Systolic Array（MXU）: 行列積を高効率で処理するTPUの心臓部
XLAコンパイラ: 実行順序を事前に計算し、制御コストを除去
BF16: 学習に必要な範囲を維持しつつ、ハードウェアコストを下げた数値形式
ICI / OCS: チップ・ラック・データセンターを1つに束ねる専用通信構造
TCO中心設計: 瞬間的な性能より長期運用コストを最適化する考え方

3件のコメント

crawler 2025-12-15

個人的な願いがあるのですが、
ぜひTPUが大きく普及して、企業がGPUを使わない状況になってほしいです。
そうすれば、NVIDIAが再び個人向けコンシューマー用GPUに集中してくれることを願っています……

xguru 2025-12-15

原文は技術的に深く踏み込んだ内容なので、そのまま要約すると技術用語の羅列になってしまうため、発展の流れを理解しやすいように少し整理しました。技術的な詳細が気になる方は、画像付きで説明している原文を参照してください。

GN⁺ 2025-12-15

Hacker Newsのコメント

Scaling ML の教材にも TPU に関する優れたセクションがある - How to Think About TPUs
- 私もこの記事とあわせて、Henry Ko の TPU詳細分析を興味深く読んだ。XLA とスケジューラの役割は本当に印象的だ。Itanium よりはるかに複雑な構造なのに、ソフトウェアがこの怪物のようなチップを実際に活用できているのは驚きだ。XLA がもっと広く採用されてほしい。オープンソースなのに業界の関心不足が惜しい。Nvidia もようやく Tiles で似た方向を追い始めたように見える。ただ、XLA はまだ複数マシン間のスケジューリングにはあまり有用ではないと理解している
この記事の構造的な説明がよかった。たいていの TPU 関連記事は実用面を飛ばしてしまうが、今回は概念を実際に結びつけてくれるので理解が一気に進んだ
TPU アーキテクチャが目的に合わせて設計されている度合いは、1世代の設計で終わる話ではない。Ironwood は第7世代の TPU であり、その進化の過程が非常に重要だ
私はまだムーアの法則は死んでいないと思っている。1965年から2025年までの60年間、2年ごとに2倍になったとすると、30回の倍増が起きたことになる。理論上、2025年には約1,070億個のトランジスタが予想されるが、実際に Apple M1 Ultra は1,140億個を搭載している
- ムーアの法則を「倍増速度が一定である」という強い意味で受け取る人もいるが、それはすでにずっと前に終わっている。ただ、その速度を緩やかに変化する定数として見るなら、今でも有効だ。問題は、単に端点だけを見て平均を取ると、最近の変化傾向を反映できないことだ
中国が数年以内に TPU を大規模生産できるという見方が、もっと大きなニュースになっていないのは驚きだ。そうなれば Google や NVIDIA などに大きな打撃を与える可能性がある。2022〜2023年に中国人が TPUv4 と v6 の文書を流出させた事件もあった。すでに中国のスタートアップが独自の TPU クラスターを構築し、売上も上げている
- ただし、製造そのものが最も難しい部分だ。中国には設計の知識は十分あるが、実際にチップを作る能力は不足している。半導体製造には TSMC が持つ「魔法のような技術力」が必要だ。Intel と Samsung もある程度は可能だが、それでもまだ差は大きい
- 記事の半分は、TPU、Borb、lilpunet、光スイッチングネットワークなどの間にあるソフトウェア依存性についてだった。こうした複雑なシステムは、単なる製造技術だけでは複製しにくい
- Google は TPU を自社サービス向けに使っているので、他社が似たチップを作ったとしても大きな打撃にはならない。むしろ NVIDIA の市場独占が崩れるほうがより現実的だ。FMA/MAC ユニットは設計が単純で、すでに Apple、Qualcomm、AMD、Amazon、Huawei など、ほぼすべての会社が独自の「TPU」を載せている。米国が60万人の中国人留学生を育成したとしても、本当の核心は製造とプロセス技術にある
- 「核基地と労働力」の話は理解できない。核基地が半導体製造と何の関係があるのかわからない。そして60万人の学生が全員チップ設計を学ぶわけでもない
- TPU がさらに安くなるのが怖いという言い方は、少し皮肉のようにも聞こえる
GCP で TPU を使うとき、今でもあの奇妙な Google バケットの仕組みに縛られているのか気になる。昔はあれが本当に不便だった