- Googleが第7世代Tensor Processing Unit(TPU)である Ironwood を発表
- Ironwoodは AI推論のために特別設計された初のTPU であり、これまでで最も高性能かつエネルギー効率の高いモデル
- 大規模言語モデル(LLM) や Mixture of Experts(MoE) のような高性能AIモデルの実行向けに設計
- 最大 9,216チップまで拡張 可能で、42.5エクサフロップス(Exaflops) の演算性能を提供
- これは世界最速のスーパーコンピュータであるEl Capitanの24倍以上の性能
Ironwoodで実現する推論時代
- 従来のAIがユーザーのリクエストに応答する方式だったのに対し、Ironwoodはデータを 能動的に解釈し洞察を生み出すAI の時代に向けた基盤を提供
- この推論時代には、AIが ユーザーの代わりにデータを収集・分析 し、より深い結果を導き出す
- Ironwoodはこうした新しいAI要件に対応するため、大規模な 並列処理と高速データアクセス 機能を備える
Ironwoodのハードウェア構成と性能
- 9,216チップで構成されたTPUポッド(pod) 構成時、42.5エクサフロップス の性能を提供
- 各チップあたり4,614 TFLOPs の性能で、大規模LLMおよびMoEモデルの学習と推論を支援
- SparseCore 機能の強化により超大規模埋め込み処理を加速し、金融、科学などさまざまな分野に適用可能
- Pathways ソフトウェアにより、数万個のIronwoodチップを効率的に管理可能
Ironwoodの主な技術的特徴
- 性能対電力効率 比が前世代比で2倍に改善
- Trillium比で約30倍高い電力効率
- 高性能な液冷技術により、継続的な高負荷作業でも安定した性能を維持
- 高帯域幅メモリ(HBM) 容量が大幅に増加
- チップあたり192GB、Trillium比で6倍に拡大
- 大規模モデルおよびデータセット処理に有利
- HBMメモリ帯域幅 を向上
- チップあたり 7.2 TBps、Trillium比で4.5倍に増加
- Inter-Chip Interconnect(ICI) 帯域幅を改善
- 双方向1.2 Tbps、Trillium比で1.5倍向上
- チップ間の高速通信により、大規模分散学習と推論に適する
Ironwoodの影響力と活用可能性
- IronwoodはGoogle Cloud Hypercomputerアーキテクチャの中核コンポーネントであり、次世代の生成AI要件に最適化されている
- Gemini 2.5、AlphaFoldのような最新AIモデルもTPUベースで動作している
- Google Cloudの顧客はIronwoodを通じて、高性能、低レイテンシ、向上したエネルギー効率 でAIワークロードを処理できる
- 2025年内に顧客利用が可能になる予定で、AI研究と実用アプリケーションにおける新たなイノベーションを導く基盤になると期待される
1件のコメント
最近、Gemini の Time to first token が圧倒的に速いと思っていたけど、こういう理由があったのか……