エージェント時代に向けた2つのチップ: Googleの第8世代TPU

(blog.google)

6 ポイント投稿者 GN⁺ 7 일 전 | 1件のコメント | WhatsAppで共有

Googleは10年以上にわたるTPU開発の集大成として第8世代TPU 2製品を発表し、大規模モデル学習専用のTPU 8tと高速推論専用のTPU 8iという、それぞれに特化したアーキテクチャを採用
TPU 8tは単一のスーパーポッドで9,600チップ、121 ExaFlopsまで拡張でき、前世代比でPodあたりの計算性能が約3倍向上
TPU 8iはメモリ帯域幅とレイテンシ最適化に重点を置き、エージェント型推論向けに再設計され、オンチップSRAMの拡大、Axion CPUホスト、MoE対応ネットワークの改善によりコスト当たり性能を80%改善
両チップともGoogle独自設計のAxion ARMベースCPUホスト上で動作し、前世代比でワット当たり性能が最大2倍向上
AIエージェントが連続的に推論・計画・実行する時代に合わせ、学習と推論を分離して最適化したインフラ戦略で、今年後半に一般提供予定。Google AI Hypercomputerの一部として利用可能

第8世代TPUの概要

Google Cloud Nextで第8世代**Tensor Processor Unit(TPU)**を発表。学習向けTPU 8tと推論向けTPU 8iの2つのアーキテクチャで構成
カスタムスーパーコンピュータを駆動するよう設計されており、最先端モデルの学習・エージェント開発・大規模推論ワークロードを幅広くカバー
Geminiを含む主要な基盤モデルを長年TPUで動かしてきており、第8世代は学習・サービング・エージェント型ワークロード全般でスケール・効率・性能を同時に提供
AIエージェント時代には、モデルが問題を推論し、多段階ワークフローを実行し、自らの行動から学習する連続ループをこなす必要があるため、インフラに新たな要件が生じる
Google DeepMindと協力し、最も厳しいAIワークロードを処理し、進化するモデルアーキテクチャに適応できるよう設計

10年以上にわたる設計思想

TPUはカスタム数値演算、液冷, カスタムインターコネクトなど、MLスーパーコンピューティングの構成要素における標準を示してきており、第8世代は10年以上の開発の集大成
中核となる設計原則は、シリコンをハードウェア・ネットワーキング・ソフトウェア（モデルアーキテクチャやアプリケーション要件を含む）と**共同設計(co-design)**することで、電力効率と絶対性能の両方で劇的な向上を実現すること
Citadel Securitiesが自社AIワークロード向けにTPUを選択した事例を、先進的な組織の例として紹介

学習と推論を分離した理由

ハードウェア開発サイクルはソフトウェアよりはるかに長いため、各世代のTPU設計では、リリース時点の技術と需要を前もって予測する必要がある
数年前から、フロンティアAIモデルの本番展開に伴う推論需要の増加を予見
AIエージェントの台頭により、学習とサービングで求められる要件がそれぞれ異なるため、個別に特化したチップがコミュニティに有利だと判断
TPU 8tは、より大きな計算スループットとスケールアップ帯域幅によって大規模学習に最適化
TPU 8iは、より多くのメモリ帯域幅によってレイテンシに敏感な推論ワークロードに最適化。エージェント間の相互作用では、小さな非効率でも大規模になると増幅されるため
両チップとも多様なワークロードを実行できるが、特化によって大幅な効率向上を実現

TPU 8t: 学習専用パワーハウス

フロンティアモデル開発サイクルを数か月から数週間へ短縮することが目標
最高水準の計算スループット、共有メモリ、チップ間帯域幅を、最適な電力効率と生産的な計算時間とのバランスで組み合わせた設計
前世代比でPodあたりの計算性能が約3倍向上
大規模スケール(Massive Scale)
- 単一のTPU 8tスーパーポッドは9,600チップ、2ペタバイトの共有HBMまで拡張
- 前世代比でチップ間帯域幅が2倍
- 121 ExaFlopsの計算性能を提供し、最も複雑なモデルでも単一の大規模メモリプールを活用可能
最大活用率(Maximum Utilization)
- 10倍高速なストレージアクセスを統合
- TPUDirectによりデータをTPUへ直接プルし、エンドツーエンドシステムの最大活用率を確保
準線形スケーリング(Near-Linear Scaling)
- 新しいVirgo NetworkとJAX、Pathwaysソフトウェアを組み合わせ、単一の論理クラスタで最大100万チップまで準線形に拡張可能
信頼性と可用性
- 目標はgoodput(有効な生産的計算時間) 97%以上
- 包括的な**RAS(Reliability, Availability, Serviceability)**機能を搭載
  - 数万チップにまたがるリアルタイムテレメトリ
  - 障害のあるICIリンクの自動検知と、ジョブ中断なしの迂回ルーティング
  - OCS(Optical Circuit Switching) により、人手を介さず障害周辺のハードウェアを再構成
- フロンティア学習規模では、ハードウェア障害・ネットワーク遅延・チェックポイント再開は非学習時間であり、1%ポイントの差が数日分の学習時間に相当する

TPU 8i: 推論エンジン

エージェント時代には、ユーザーは質問し、作業を委任し、結果を受け取る体験を期待するため、複数の専門エージェントが複雑なフローで**スウォーミング(swarming)**しながら協調する処理に最適化
「待合室効果」をなくすためスタックを再設計し、4つの中核的イノベーションを適用
メモリの壁を打破(Breaking the Memory Wall)
- 288GB HBMと384MBオンチップSRAM（前世代比3倍）を搭載
- モデルのアクティブなワーキングセット全体をオンチップに保持し、プロセッサの遊休状態を防止
Axionベースの効率性
- サーバーあたりの物理CPUホストを2倍に増やし、Google独自のAxion ARMベースCPUを採用
- NUMA(Non-Uniform Memory Architecture) 分離によりシステム全体の性能を最適化
MoEモデルの拡張
- 最新のMixture of Expert(MoE)モデル向けにICI帯域幅を19.2 Tb/sへと2倍に拡大
- 新しいBoardflyアーキテクチャにより最大ネットワーク直径を50%以上縮小し、ひとつの一体的で低レイテンシなユニットとして動作
レイテンシの除去(Eliminating Lag)
- 新しいオンチップCAE(Collectives Acceleration Engine) がグローバル演算をオフロードし、オンチップレイテンシを最大5倍削減
コスト当たり性能
- 前世代比でドル当たり性能が80%向上し、同一コストでほぼ2倍の顧客ボリュームをサービング可能

Geminiとの共同設計、そしてすべての人へ開放

第8世代TPUは、AIの最大の課題を解決するために全仕様を設計した共同設計哲学の最新の表れ
Boardflyトポロジー: 現在最も優れた推論モデルの通信要件に合わせて設計
TPU 8iのSRAM容量: 本番規模の推論モデルにおけるKVキャッシュのフットプリントに合わせて算定
Virgo Networkの帯域幅目標: 兆単位パラメータ学習の並列化要件から導出
両チップとも、初めてGoogle独自のAxion ARMベースCPUホスト上で動作し、チップ単体ではなくシステム全体を最適化可能
フレームワークとアクセス性
- ネイティブでJAX, MaxText, PyTorch, SGLang, vLLMをサポート
- ベアメタルアクセスを提供し、仮想化オーバーヘッドなしでハードウェアへ直接アクセス可能
- オープンソースへの貢献として、MaxTextのリファレンス実装や、強化学習向けのTunixなどにより、開発から本番展開までの中核パスを支援

大規模な電力効率を前提とした設計

今日のデータセンターでは、チップ供給だけでなく電力が制約条件のボトルネックとなっている
スタック全体で効率を最適化し、リアルタイム需要に応じて消費電力を動的に調整する統合電力管理を適用
TPU 8tとTPU 8iはいずれも前世代(Ironwood)比でワット当たり性能が最大2倍向上
効率性はチップ単位の指標ではなく、シリコンからデータセンターまでのシステムレベルのコミットメント
- ネットワーク接続を計算と同一チップに統合し、TPU Pod内のデータ移動にかかる電力コストを大幅に削減
- データセンターもTPUと共同設計されており、5年前比で電力単位当たりの計算能力が6倍向上
両チップとも第4世代液冷技術により支えられ、空冷では不可能な性能密度を維持
Axionホストからアクセラレータまでスタック全体を自社保有することで、ホストとチップを独立に設計した場合には不可能なシステムレベルのエネルギー効率最適化を実現

エージェント時代のためのインフラ

あらゆる主要なコンピューティングの転換にはインフラ革新が必要であり、エージェント時代も例外ではない
自律エージェントが推論・計画・実行・学習の連続ループを回す要件に合わせ、インフラも進化する必要がある
TPU 8tとTPU 8iはこの課題への回答であり、最先端のAIモデル構築、完全にオーケストレーションされたエージェントスウォーム、最も複雑な推論処理の管理を再定義する2つの特化アーキテクチャ
両チップとも今年後半に一般提供予定
GoogleのAI Hypercomputerの一部として利用可能
- 目的別ハードウェア（計算、ストレージ、ネットワーキング）、オープンソフトウェア（フレームワーク、推論エンジン）、柔軟な消費モデル（オーケストレーション、クラスタ管理、デリバリーモデル）を統合スタックとして組み合わせる

1件のコメント

GN⁺ 7 일 전

Hacker Newsのコメント

Gemini 3は効率性重視の学習でどこまで可能かをすでに示したと感じた。ProとFlashは、OpusやGPT-5級のモデルよりおそらく5倍から10倍は小さく見えるツール呼び出しは頻繁に壊れるし、agenticな作業では全体的に弱く、推論と実行の仕上げはまだ不十分に見えた。それでもツールや検索なしの純粋な問題解決だけを見れば、OpusやGPTに匹敵し、サイズはずっと小さそうだという印象だった Googleはいつかプレビュー段階のプロトタイピングを終えて、きちんとした正式モデルを出す瞬間、現在のSOTAを1世代ぶん超えるモデルで皆を驚かせる気がする。これまで出てきたモデルは、投資家に見せて製品群に概念実証として入れるため急いでGAに押し込んだプロトタイプのように感じられた
- その5倍から10倍という推定には懐疑的だ。特にProはそうで、むしろGoogleのハードウェアのおかげで、より大きなモデルをより安く速く回している可能性もあると思う Gemini 3 Proは全体として最も人間的な知能に近いモデルのように感じられた。特に人文系に強く、多くの人間言語で自然なテキストを作る能力は事実上トップだと思う。こうした差はニッチな言語になるほど大きくなり、それは小さいモデルというより、むしろより大きいモデルを示唆しているように感じた数学とagenticな作業は確かに弱く、Geminiアプリ自体も3年前の初期ChatGPTと大差ないほど遅れて見え、体感性能を下げていると思う
- その点には自分も同意する。Gemini-cliはCCやCodexと比べると本当にひどいと感じるそれでもGoogleが優先しているのは、従来の検索を補強または置き換える最高のAIを作ることだと思う。それが本業であり、収益化の立ち位置でも誰よりずっと有利だ。ユーザーベースとクエリ量の面で、すでに圧倒的な配布優位を持っていると見ている Gemini-cliも優先度を上げ、この領域の競争をもっと本気で押し進めてほしい
- 自分の記憶では、Gemini 3 Proが最初に出たときは当時のClaudeのバージョンとほぼ同格と見なされていた。ところが今のGemini 3にはかなり古びた感じが残っているその間に中国系モデルも多く出たし、Claudeも何度か更新されて、今ではGoogleがこの分野で少し停滞しているように見える。もちろん、すぐに大幅な改善で驚かせる可能性はあると思う
- Googleのpreviewという名称はかなり恣意的だと思う。可用性や継続性への約束を避けるためのやり方で、失敗してもベータ品質だったと言い逃れできるPR戦術のように感じた
- 自分はGeminiで何を見落としているのか、いつも不思議だった。自分にはせいぜい二流モデルくらいに感じられる情報収集はそこそこだが、agenticな作業はほとんど役に立たず、いつも酔っているように見えた。AntigravityでClaudeのクレジットが尽きたら、その日はもう終わりという感じだトークンをずっと少なく使うという話は笑ってしまった。自分の経験では、問題も解けないまま死のループに入ることが多かったからだ
いまや大規模AIをやるには、事実上NVidiaから買うかGoogleから借りるしかないと思う。そしてGoogleはチップ、エンジン、システムをデータセンター全体の観点で設計できるので、チップベンダーが中央集権化できない部分まで最適化できるだから本当に規模が大きくなるほど、Googleのシステムは常によりコスト効率が高いだろうと推測している。ちなみに自分はこういう理由も含めてGOOGロングだ
- 自分もGoogleに賭けたいが、Gemini CLIの体験がCodexやClaudeレベルに近いだけでもそうしていたと思うハードウェアがどれだけ良くても、代表的なコーディングエージェントがターン終了トークンを探してループに陥るなら、その価値は大きく下がると感じる
- Amazonも同じように独自のTPU系チップを作っているのではないかと気になった
- 自分は「他人の王国に城を築くな」という言葉を思い出した結局のところ、NVidiaから買うのが唯一の現実的な選択肢に見え、それすら最適ではないと思う
- むしろ自分はその仮説の逆側に近い。理由は2つあって、第一にGoogleは生産を人為的に制限してきたように見えた第二に、TSMCは最も多くのキャパ費用を払える側を好むので、新プロセスの最初の枠はNvidiaが取ると思うそれにGCPはHetznerやlambdalabsより営業利益率が高く、実際もっと安いGPUレンタル先もあるので、学生や小規模研究者は結局GPU側にとどまると感じる
- 経営陣がもう少しインスピレーションを与える感じだったら、Googleに賭けていたと思う Cook体制のAppleもJobs時代より穏やかだったが、Googleは崖から落ちたように感じた。OpenAIがChatGPTを出していなければ、この技術をいまだに社内実験に眠らせていたかもしれないと思う。今ではその出来事が、むしろチップR&D全体を押し進める原動力になっているようだ
他社がニュースサイクルの注目を集める間、Googleは静かに強くなっていく流れに乗って消費者市場シェアを積み上げているように見えた AIを最初から垂直統合してきたおかげかインフラ問題もほとんどなさそうで、かつては終わった会社のように見えたのに、今では満ち潮のように四方へ広がっていく感じだ
- ただしGoogle Antigravityのsubredditは完全にカオスに見えた https://www.reddit.com/r/GoogleAntigravityIDE/
- 1〜2年以内に、GoogleとAppleが結局両方とも利益を得る時期が来ると思うこの2社は毎月荒削りな製品を出して企業価値を倍にしようとするスピード勝負のゲームをしているわけではなく、観察し、考え、そのうえで本当に完成度の高い製品を出す時間があると期待している
- Googleの最新のオープンモデルは、他のオープンモデルとかなり競争力があると思う特に2〜4GBのような小型サイズで革新があり、スマホやさらに小さい機器で現実的な品質の推論に近づくよう、ギャップを縮める助けになっていると感じる
- 誇張を取り除けば、OpenAIとAnthropicは金を燃やしてもっと大きな焚き火を作ろうと互いに火をつけ合っているように見えた
- AI導入はGoogleにとって、OpenAIやAnthropicほど実存的な問題ではないと思うそのうえGoogleが何を言っても、他の2社ほどhypeを生み出しにくく、結局は企業の広報文句のように聞こえやすいと感じる
Gemini、ChatGPT、Claudeを全部使っている立場からすると、Geminiは他の2つより一貫してはるかに少ないトークンを使う方だった結局、Geminiが今の水準にとどまっているのは、より小さなthinking budgetのせいに見えた Googleはおそらく最も多くのコンピュートと最も低いコスト構造を持っているはずなのに、なぜ他の2社のように推論コンピュートを強く押し込まないのかは疑問だった。他サービスの負担なのか、学習重視の戦略なのかは分からないが、かなり興味深い点だと思う
- 自分は数か月、20ドル前後のGoogle OneサブスクでGemini Proを使っていたが、情報検証のためにWeb検索を回す回数もChatGPT 5.4 Proより一貫して少ないと感じたコーディング比較もしてみようと思ったが、GeminiのVSCodeアドインが動かずできなかった AndroidとWebアプリにはバグも多く、スレッド間を行き来するとチャット履歴が消える問題まであったので、今月でGoogle Oneを解約するつもりだ
- GeminiをClaudeやChatGPTの代わりに使うべき競争優位が何なのか、よく分からない出力品質がその2つにほぼ及ばないと感じる
- 今日発表されたばかりのエンタープライズ向けagenticプラットフォームが、Fortune 500が推論ワークロードを載せる重力井戸になるかもしれないと期待している
- GLM-5がGLM-4.7より良くなった主因のひとつは、トークン使用により積極的だったからだと半ば確信している 4.7はソースコードを十分読ませるのがあまりに難しく、それでもいったん読めばかなり有能だった倹約は長所だが、逆に言えば十分に内省しない、要素を十分に考慮しない、ソースコードを十分に読まないことを意味する場合もあると思う。結局、トークンを節約するのと多く使うことの間では、まだ誰にも確かなことは分かっていない領域だと感じる
TPU 8tのsuperpod 1台が9,600チップと2PBの共有高帯域幅メモリまでスケールするという説明は印象的だった自分はこの分野に詳しいわけではないが、少なくとも自分の目にはGoogleのかなり大きな競争優位に見えた
- 自分もそれは正しいと思う。それでもinstructionとdataの分離の方向でブレークスルーがない限り、AGIは実現しないだろうと思う
TPU 8tとTPU 8iが前世代比で電力あたり性能最大2倍という話はかなり印象的だった特に前世代が2025年製品というほど最近だという点がさらに興味深かった。また、学習用と推論用のハードウェアが分かれている点も目を引き、NVハードウェアを使う会社もこう分けて使うのか、それとももっと汎用的なのか気になった
- 学習がcompute-bound、推論がmemory-boundなのはよく知られた話だが、Nvidiaの展開は通常そのどちらかに特化してはいないと理解している多くのクラウドやネオクラウドはワークロード自体を所有していないので汎用性が重要であり、高価なH200にネットワーキングまで投資した以上、さまざまな顧客に売れなければならないからだただ、Vera RubinのGrok LPUやCerebrasのように推論最適化専用アクセラレータも出てきており、特化の流れはすでに始まっていると思う
- NVIDIA側は断言できないが、AWSは独自の学習用チップと推論用チップを別々に持っているただし噂では、推論チップが弱すぎて一部企業は推論も学習用チップで回していると聞いた
- 専用ハードウェアは一般により高速な性能を出すので、どの分野でも成熟するほど複雑で高価なシステムが、安くありふれた1ドルチップへと降りてくる傾向があると思うだからGoogleはNVidiaの上に乗っている企業より、自分たちのスタックをはるかによく理解していると感じた。Googleはキーボードからシリコンまで全部を持っていて、互いに資源を奪い合う機能を分離する方法を十分に反復学習してきたように見えた
- 学習用チップも、結局は遅いがスループットの高い大規模推論にはかなり使える気がする時間感度の低い用途では、このやり方がかなり一般化すると予想している
- Vera Rubinに高速推論向けのGroqチップが入るという点だけ見ても、一つの流れが見えたエネルギー需要がこれほど高い状況では、可能な限りあらゆる最適化を追求するのは自然だと感じる
自分はGeminiをJetBrainsのJunieと一緒に使っているが、Junie自体はClaude Codeほど良くなくても、今のGoogleツールよりははるかに先にいると感じるこの組み合わせで、かなり安価に一貫した結果をうまく得られている
- JetBrains IDEとツールの文脈で見ても、Junieが競合製品と肩を並べる水準だと見ているのか気になった
大手の推論プロバイダの中で、Googleはモデル廃止ポリシーが最も厄介な部類だと感じる発売からちょうど1年でモデルを消し、次世代へ強制移行させる。自社シリコンを使っているのだからもっと安定しているかと思ったら逆だった。rate limitingもOpenAIよりずっと厳しく、これがTPUのせいなのか、ただの妙なポリシー判断なのか気になった
- Googleが古いGeminiリリースをあまりにあっさり終了させる姿勢はかなりもどかしかった自分の解釈では、ほとんどのツールが最新モデルしか使わないので、新モデルがすぐに全体ボリュームの90%以上を食い、そうなるとGoogle流の費用便益分析が適用されて旧型が淡々と切られる構造なのだと思う最近Gemini 2.5のEOL日を延長したのはむしろ驚きで、Googleはもともと顧客執着型の会社ではなかったという印象だ
- Flash 2はまだ6月までEOLでもないのに、週末の間ずっと429が出て**エラー率90%**くらいになったそれで結局GPT 5.4 nanoに切り替えた
AIに最終的な勝者が出るなら、結局はフルスタックを持つGoogleか、最も多くのAI対応エッジサイトを配備するAppleのどちらかが勝つ気がして、別の絵があまり見えない
- 自分は、勝者は特定の作業をうまくこなすローカルモデルラッパーかもしれないと思う検索のような仕事を、人に媚びる擬人化されたご機嫌取りではなく、きちんと実行するよう設計されたものの方が有力に見える
- Googleが製品面で今後も空振りを続ける可能性もかなり高いと思う圧倒的な配布力のおかげでそれでも耐えられるだろうが、より良い製品が出れば、IE対Chromeのように十分破壊的な転換を食らう余地は残っていると感じる
このリンクにアーキテクチャの説明がより詳しくまとまっていた。https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive

エージェント時代に向けた2つのチップ: Googleの第8世代TPU

第8世代TPUの概要

10年以上にわたる設計思想

学習と推論を分離した理由

TPU 8t: 学習専用パワーハウス

大規模スケール(Massive Scale)

最大活用率(Maximum Utilization)

準線形スケーリング(Near-Linear Scaling)

信頼性と可用性

TPU 8i: 推論エンジン

メモリの壁を打破(Breaking the Memory Wall)

Axionベースの効率性

MoEモデルの拡張

レイテンシの除去(Eliminating Lag)

コスト当たり性能

Geminiとの共同設計、そしてすべての人へ開放

フレームワークとアクセス性

大規模な電力効率を前提とした設計

エージェント時代のためのインフラ

関連記事

1件のコメント

Hacker Newsのコメント