エージェント時代に向けた2つのチップ: Googleの第8世代TPU
(blog.google)- Googleは10年以上にわたるTPU開発の集大成として第8世代TPU 2製品を発表し、大規模モデル学習専用のTPU 8tと高速推論専用のTPU 8iという、それぞれに特化したアーキテクチャを採用
- TPU 8tは単一のスーパーポッドで9,600チップ、121 ExaFlopsまで拡張でき、前世代比でPodあたりの計算性能が約3倍向上
- TPU 8iはメモリ帯域幅とレイテンシ最適化に重点を置き、エージェント型推論向けに再設計され、オンチップSRAMの拡大、Axion CPUホスト、MoE対応ネットワークの改善によりコスト当たり性能を80%改善
- 両チップともGoogle独自設計のAxion ARMベースCPUホスト上で動作し、前世代比でワット当たり性能が最大2倍向上
- AIエージェントが連続的に推論・計画・実行する時代に合わせ、学習と推論を分離して最適化したインフラ戦略で、今年後半に一般提供予定。Google AI Hypercomputerの一部として利用可能
第8世代TPUの概要
- Google Cloud Nextで第8世代**Tensor Processor Unit(TPU)**を発表。学習向けTPU 8tと推論向けTPU 8iの2つのアーキテクチャで構成
- カスタムスーパーコンピュータを駆動するよう設計されており、最先端モデルの学習・エージェント開発・大規模推論ワークロードを幅広くカバー
- Geminiを含む主要な基盤モデルを長年TPUで動かしてきており、第8世代は学習・サービング・エージェント型ワークロード全般でスケール・効率・性能を同時に提供
- AIエージェント時代には、モデルが問題を推論し、多段階ワークフローを実行し、自らの行動から学習する連続ループをこなす必要があるため、インフラに新たな要件が生じる
- Google DeepMindと協力し、最も厳しいAIワークロードを処理し、進化するモデルアーキテクチャに適応できるよう設計
10年以上にわたる設計思想
- TPUはカスタム数値演算、液冷, カスタムインターコネクトなど、MLスーパーコンピューティングの構成要素における標準を示してきており、第8世代は10年以上の開発の集大成
- 中核となる設計原則は、シリコンをハードウェア・ネットワーキング・ソフトウェア(モデルアーキテクチャやアプリケーション要件を含む)と**共同設計(co-design)**することで、電力効率と絶対性能の両方で劇的な向上を実現すること
- Citadel Securitiesが自社AIワークロード向けにTPUを選択した事例を、先進的な組織の例として紹介
学習と推論を分離した理由
- ハードウェア開発サイクルはソフトウェアよりはるかに長いため、各世代のTPU設計では、リリース時点の技術と需要を前もって予測する必要がある
- 数年前から、フロンティアAIモデルの本番展開に伴う推論需要の増加を予見
- AIエージェントの台頭により、学習とサービングで求められる要件がそれぞれ異なるため、個別に特化したチップがコミュニティに有利だと判断
- TPU 8tは、より大きな計算スループットとスケールアップ帯域幅によって大規模学習に最適化
- TPU 8iは、より多くのメモリ帯域幅によってレイテンシに敏感な推論ワークロードに最適化。エージェント間の相互作用では、小さな非効率でも大規模になると増幅されるため
- 両チップとも多様なワークロードを実行できるが、特化によって大幅な効率向上を実現
TPU 8t: 学習専用パワーハウス
- フロンティアモデル開発サイクルを数か月から数週間へ短縮することが目標
- 最高水準の計算スループット、共有メモリ、チップ間帯域幅を、最適な電力効率と生産的な計算時間とのバランスで組み合わせた設計
- 前世代比でPodあたりの計算性能が約3倍向上
-
大規模スケール(Massive Scale)
- 単一のTPU 8tスーパーポッドは9,600チップ、2ペタバイトの共有HBMまで拡張
- 前世代比でチップ間帯域幅が2倍
- 121 ExaFlopsの計算性能を提供し、最も複雑なモデルでも単一の大規模メモリプールを活用可能
-
最大活用率(Maximum Utilization)
- 10倍高速なストレージアクセスを統合
- TPUDirectによりデータをTPUへ直接プルし、エンドツーエンドシステムの最大活用率を確保
-
準線形スケーリング(Near-Linear Scaling)
- 新しいVirgo NetworkとJAX、Pathwaysソフトウェアを組み合わせ、単一の論理クラスタで最大100万チップまで準線形に拡張可能
-
信頼性と可用性
- 目標はgoodput(有効な生産的計算時間) 97%以上
- 包括的な**RAS(Reliability, Availability, Serviceability)**機能を搭載
- 数万チップにまたがるリアルタイムテレメトリ
- 障害のあるICIリンクの自動検知と、ジョブ中断なしの迂回ルーティング
- OCS(Optical Circuit Switching) により、人手を介さず障害周辺のハードウェアを再構成
- フロンティア学習規模では、ハードウェア障害・ネットワーク遅延・チェックポイント再開は非学習時間であり、1%ポイントの差が数日分の学習時間に相当する
TPU 8i: 推論エンジン
- エージェント時代には、ユーザーは質問し、作業を委任し、結果を受け取る体験を期待するため、複数の専門エージェントが複雑なフローで**スウォーミング(swarming)**しながら協調する処理に最適化
- 「待合室効果」をなくすためスタックを再設計し、4つの中核的イノベーションを適用
-
メモリの壁を打破(Breaking the Memory Wall)
- 288GB HBMと384MBオンチップSRAM(前世代比3倍)を搭載
- モデルのアクティブなワーキングセット全体をオンチップに保持し、プロセッサの遊休状態を防止
-
Axionベースの効率性
- サーバーあたりの物理CPUホストを2倍に増やし、Google独自のAxion ARMベースCPUを採用
- NUMA(Non-Uniform Memory Architecture) 分離によりシステム全体の性能を最適化
-
MoEモデルの拡張
- 最新のMixture of Expert(MoE)モデル向けにICI帯域幅を19.2 Tb/sへと2倍に拡大
- 新しいBoardflyアーキテクチャにより最大ネットワーク直径を50%以上縮小し、ひとつの一体的で低レイテンシなユニットとして動作
-
レイテンシの除去(Eliminating Lag)
- 新しいオンチップCAE(Collectives Acceleration Engine) がグローバル演算をオフロードし、オンチップレイテンシを最大5倍削減
-
コスト当たり性能
- 前世代比でドル当たり性能が80%向上し、同一コストでほぼ2倍の顧客ボリュームをサービング可能
Geminiとの共同設計、そしてすべての人へ開放
- 第8世代TPUは、AIの最大の課題を解決するために全仕様を設計した共同設計哲学の最新の表れ
- Boardflyトポロジー: 現在最も優れた推論モデルの通信要件に合わせて設計
- TPU 8iのSRAM容量: 本番規模の推論モデルにおけるKVキャッシュのフットプリントに合わせて算定
- Virgo Networkの帯域幅目標: 兆単位パラメータ学習の並列化要件から導出
- 両チップとも、初めてGoogle独自のAxion ARMベースCPUホスト上で動作し、チップ単体ではなくシステム全体を最適化可能
-
フレームワークとアクセス性
- ネイティブでJAX, MaxText, PyTorch, SGLang, vLLMをサポート
- ベアメタルアクセスを提供し、仮想化オーバーヘッドなしでハードウェアへ直接アクセス可能
- オープンソースへの貢献として、MaxTextのリファレンス実装や、強化学習向けのTunixなどにより、開発から本番展開までの中核パスを支援
大規模な電力効率を前提とした設計
- 今日のデータセンターでは、チップ供給だけでなく電力が制約条件のボトルネックとなっている
- スタック全体で効率を最適化し、リアルタイム需要に応じて消費電力を動的に調整する統合電力管理を適用
- TPU 8tとTPU 8iはいずれも前世代(Ironwood)比でワット当たり性能が最大2倍向上
- 効率性はチップ単位の指標ではなく、シリコンからデータセンターまでのシステムレベルのコミットメント
- ネットワーク接続を計算と同一チップに統合し、TPU Pod内のデータ移動にかかる電力コストを大幅に削減
- データセンターもTPUと共同設計されており、5年前比で電力単位当たりの計算能力が6倍向上
- 両チップとも第4世代液冷技術により支えられ、空冷では不可能な性能密度を維持
- Axionホストからアクセラレータまでスタック全体を自社保有することで、ホストとチップを独立に設計した場合には不可能なシステムレベルのエネルギー効率最適化を実現
エージェント時代のためのインフラ
- あらゆる主要なコンピューティングの転換にはインフラ革新が必要であり、エージェント時代も例外ではない
- 自律エージェントが推論・計画・実行・学習の連続ループを回す要件に合わせ、インフラも進化する必要がある
- TPU 8tとTPU 8iはこの課題への回答であり、最先端のAIモデル構築、完全にオーケストレーションされたエージェントスウォーム、最も複雑な推論処理の管理を再定義する2つの特化アーキテクチャ
- 両チップとも今年後半に一般提供予定
- GoogleのAI Hypercomputerの一部として利用可能
- 目的別ハードウェア(計算、ストレージ、ネットワーキング)、オープンソフトウェア(フレームワーク、推論エンジン)、柔軟な消費モデル(オーケストレーション、クラスタ管理、デリバリーモデル)を統合スタックとして組み合わせる
1件のコメント
Hacker Newsのコメント
Gemini 3は効率性重視の学習でどこまで可能かをすでに示したと感じた。ProとFlashは、OpusやGPT-5級のモデルよりおそらく5倍から10倍は小さく見える ツール呼び出しは頻繁に壊れるし、agenticな作業では全体的に弱く、推論と実行の仕上げはまだ不十分に見えた。それでもツールや検索なしの純粋な問題解決だけを見れば、OpusやGPTに匹敵し、サイズはずっと小さそうだという印象だった Googleはいつかプレビュー段階のプロトタイピングを終えて、きちんとした正式モデルを出す瞬間、現在のSOTAを1世代ぶん超えるモデルで皆を驚かせる気がする。これまで出てきたモデルは、投資家に見せて製品群に概念実証として入れるため急いでGAに押し込んだプロトタイプのように感じられた
いまや大規模AIをやるには、事実上NVidiaから買うかGoogleから借りるしかないと思う。そしてGoogleはチップ、エンジン、システムをデータセンター全体の観点で設計できるので、チップベンダーが中央集権化できない部分まで最適化できる だから本当に規模が大きくなるほど、Googleのシステムは常によりコスト効率が高いだろうと推測している。ちなみに自分はこういう理由も含めてGOOGロングだ
他社がニュースサイクルの注目を集める間、Googleは静かに強くなっていく流れに乗って消費者市場シェアを積み上げているように見えた AIを最初から垂直統合してきたおかげかインフラ問題もほとんどなさそうで、かつては終わった会社のように見えたのに、今では満ち潮のように四方へ広がっていく感じだ
Gemini、ChatGPT、Claudeを全部使っている立場からすると、Geminiは他の2つより一貫してはるかに少ないトークンを使う方だった 結局、Geminiが今の水準にとどまっているのは、より小さなthinking budgetのせいに見えた Googleはおそらく最も多くのコンピュートと最も低いコスト構造を持っているはずなのに、なぜ他の2社のように推論コンピュートを強く押し込まないのかは疑問だった。他サービスの負担なのか、学習重視の戦略なのかは分からないが、かなり興味深い点だと思う
TPU 8tのsuperpod 1台が9,600チップと2PBの共有高帯域幅メモリまでスケールするという説明は印象的だった 自分はこの分野に詳しいわけではないが、少なくとも自分の目にはGoogleのかなり大きな競争優位に見えた
TPU 8tとTPU 8iが前世代比で電力あたり性能最大2倍という話はかなり印象的だった 特に前世代が2025年製品というほど最近だという点がさらに興味深かった。また、学習用と推論用のハードウェアが分かれている点も目を引き、NVハードウェアを使う会社もこう分けて使うのか、それとももっと汎用的なのか気になった
自分はGeminiをJetBrainsのJunieと一緒に使っているが、Junie自体はClaude Codeほど良くなくても、今のGoogleツールよりははるかに先にいると感じる この組み合わせで、かなり安価に一貫した結果をうまく得られている
大手の推論プロバイダの中で、Googleはモデル廃止ポリシーが最も厄介な部類だと感じる 発売からちょうど1年でモデルを消し、次世代へ強制移行させる。自社シリコンを使っているのだからもっと安定しているかと思ったら逆だった。rate limitingもOpenAIよりずっと厳しく、これがTPUのせいなのか、ただの妙なポリシー判断なのか気になった
AIに最終的な勝者が出るなら、結局はフルスタックを持つGoogleか、最も多くのAI対応エッジサイトを配備するAppleのどちらかが勝つ気がして、別の絵があまり見えない
このリンクにアーキテクチャの説明がより詳しくまとまっていた。https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive