- TPUは、ディープラーニングに本当に必要な計算だけを残し、それ以外を大胆に捨てたGoogleのドメイン特化アクセラレータ
- 2013年のデータセンター拡張の限界をきっかけに始まり、12年で第7世代の「Ironwood」へと発展
- 半導体性能が自動的に向上していた時代が終わり、待たずに自ら設計する戦略が重要な選択肢になった
- TPUは1つのチップではなく、ハードウェア・コンパイラ・ネットワーク・運用ソフトウェアの共同設計システムである
- 世代を重ねるごとに、性能競争よりも**電力・配置・運用コスト(TCO)**が設計の中心へ移っている
- TPUの競争力は単一の技術ではなく、10年以上にわたって蓄積された設計・運用経験の総和にある
Something New
- TPUは秘密兵器ではなく、長年の公開研究と社内での反復によって磨かれた成果物である
- Googleはデータセンターを拡張し続ける代わりに、計算のやり方そのものを根本から変える道を選んだ
- 2013年ごろ、データセンター容量を2倍に増やさなければならない圧力と時間制約が、15か月でのTPU誕生につながった
- 2025年4月のGoogle Cloud Nextで第7世代TPU Ironwoodを発表、9,216チップ/pod、42.5 Exaflops、10MWという数値を提示
- GPUはディープラーニングのために作られた装置ではなく、TPUは最初からニューラルネットワーク計算を前提に設計された
- この選択によって、計算性能だけでなく電力効率と運用安定性でも構造的な優位性を確保した
- 「偶然」ではなく、制約・トレードオフ・共同設計の反復によって積み上がった結果
Slowing Down
- Moore’s LawとDennard Scalingの弱まりにより、以前は新しいCPUを待つだけでプログラムが高速化したが、その前提は崩れた
- トランジスタの増加は続いているが、電力・発熱の限界が性能向上を阻んでいる
- 同時にニューラルネットワークは、より大きなデータとより大きなモデルを求め、計算需要が爆発的に増加している
- その結果、「あらゆる仕事をそこそこうまくこなすチップ」よりも、**「1つの仕事を極端にうまくこなすチップ」**が必要になった
- ニューラルネットワーク計算の核心が、行列積中心の反復演算であることが特化設計を可能にした
The Inference Chip
- 最初のTPUは学習ではなく、推論(Inference)、つまりすでに学習済みのモデル実行に集中していた
- TPUv1はキャッシュ・分岐予測・マルチスレッディングを取り除き、制御コストを最小化した
- その代わり、**大規模な行列積を休みなく処理するSystolic Array(MXU)**にすべての資源を集中した
- 実行中に判断を行わず、コンパイル時点で確定した実行順序にそのまま従う
- その結果、同じ電力でGPU・CPUと比べてはるかに多くの推論処理をこなせた
The Training Chip
- 学習は推論よりはるかに多くの計算と、より広い数値表現範囲を必要とする
- TPUv2以降は、推論専用の構造を超えて学習のための柔軟性が追加された
- 重要な変化は、行列(MXU)・ベクトル(VPU)・制御(Scalar Unit)の役割分担である
- 実行フローはXLAコンパイラが事前に計算して決定し、チップはそれをそのまま実行する
- 複数のTPUが1つの装置のように動作するよう、**専用の高速インターコネクト(ICI)**も合わせて設計された
Scaling Up
- システムが大規模化するにつれ、問いは「どれだけ速いか」から**「どれだけ長く、安く回せるか」**へと移った
- そのために、演算装置の近くに**大容量オンチップメモリ(CMEM)**を置き、遅いDRAMアクセスを減らす
- レコメンデーションシステムのように疎なデータが多い処理向けには、SparseCoreのような専用ユニットも導入された
- チップ内通信とチップ間通信を分離し、配線の複雑さとボトルネックを構造的に緩和する
- 性能指標よりも、運用効率が設計全体を左右するようになった
Island Hopping
- 数千個のTPUを使う環境では、故障は例外ではなく前提である
- 目標は止まらないシステム、つまり部分的な障害を吸収する構造である
- 処理は複数のTPUに分散して実行されるが、1つのプログラムのように見えるよう管理される
- 問題が起きても全体を止めるのではなく、迅速な再配置と再起動を選ぶ
- この複雑な過程の大半は、運用ソフトウェアが自動的に処理する
Datacenter Network拡張
- 1つのTPUクラスタだけでは足りなくなると、複数のクラスタを接続する必要がある
- 一般的なネットワークでは限界があるため、**光ベースのスイッチング(OCS)**が導入された
- これにより、データセンター全体を1つの巨大な計算資源のように構成できるようになった
- 既存の実行モデルを拡張する方式と、**まったく新しい非同期実行モデル(Pathways)**が共存する
- より大きなモデルと、より複雑な通信パターンに対応できるようになった
Ceci n’est pas une TPU
- 最新のTPUは数値だけ見れば圧倒的だが、中核原則は初期と同じである
- 必要な計算に集中し、不要な複雑さを取り除くという方向性は維持されている
- ハードウェア仕様だけでは、このシステムを複製することはできない
- コンパイラ(XLA)、専用インターコネクト(ICI)、光スイッチング(OCS)、運用スケジューラが一体となって動作しなければならない
- TPUは一度の発明ではなく、何百回もの平凡な選択が積み重なった結果である
必ず覚えておきたい主要技術いくつか
- Systolic Array(MXU): 行列積を高効率で処理するTPUの心臓部
- XLAコンパイラ: 実行順序を事前に計算し、制御コストを除去
- BF16: 学習に必要な範囲を維持しつつ、ハードウェアコストを下げた数値形式
- ICI / OCS: チップ・ラック・データセンターを1つに束ねる専用通信構造
- TCO中心設計: 瞬間的な性能より長期運用コストを最適化する考え方
3件のコメント
個人的な願いがあるのですが、
ぜひTPUが大きく普及して、企業がGPUを使わない状況になってほしいです。
そうすれば、NVIDIAが再び個人向けコンシューマー用GPUに集中してくれることを願っています……
原文は技術的に深く踏み込んだ内容なので、そのまま要約すると技術用語の羅列になってしまうため、発展の流れを理解しやすいように少し整理しました。技術的な詳細が気になる方は、画像付きで説明している原文を参照してください。
Hacker Newsのコメント