- 液体冷却は、データセンターにおける高電力チップの発熱問題を解決するため急速に広がっている
- 空気より約4,000倍高い熱伝導率を持ち、特にAIブームによるTPU冷却需要に対応するため、Googleが積極的に導入している
- GoogleはCDU(Coolant Distribution Unit) ベースのラック単位の液体冷却ループを運用し、保守性と拡張性を高めている
- Split-flowコールドプレート、ベアダイ冷却(TPUv4) など、高性能PC市場の手法をデータセンタースケールに適用している
- 液体冷却はファンと比べて消費電力が5%以下と効率的であり、漏水・微生物増殖といった問題に備えて、Googleは徹底した検証、通知システム、予防保守を併用している
- NVIDIA、Rebellions AIなども液体冷却を採用し、データセンター冷却の標準化の流れが加速している
液体冷却の必要性と背景
- 液体冷却はPC愛好家の間ではなじみ深く、企業向けコンピューティング環境でも長い歴史を持つ
- 近年、AIおよび機械学習ワークロードの電力消費増加により、データセンターでの液体冷却の重要性が大きく高まっている
- Googleは水の熱伝導率が空気に比べて約4,000倍高い点に注目し、最新チップの高発熱への対策として採用した
- Hot Chips 2025でGoogleは、TPU(機械学習アクセラレータ)の冷却に関連するデータセンター規模の液体冷却方式を紹介した
Googleの液体冷却システム構成
- Googleは2018年からTPUに液体冷却を適用し、さまざまな実験と改善を重ねてきた
- 最新の冷却ソリューションはサーバー内に限定されずラック全体に液体冷却ループを適用している
- 1つの冷却ラックは6基のCDU(Coolant Distribution Unit) で構成され、これはPCのラジエーター+ポンプ一体型に近い役割を果たす
- 柔軟なホースとクイックディスコネクトカップリングを導入し、保守のしやすさと設置許容差を改善している
- 6基のうち5基だけを稼働させても十分な冷却が可能で、1基を保守する際にも全体停止は不要である
熱交換とチップレイアウト
- CDUは内部冷却水とデータセンターの外部供給水の間で熱のみを交換し、2つの液体は直接混ざらない
- CDUから出た冷却水はマニホールドを通じて複数のTPUサーバーへ分配される
- TPUチップ接続は順次(シリーズ)構成で、ループ内の最後のチップの熱需要を基準に全体の冷却予算を算定する
冷却技術の最適化
- Split-flow cold plate構造を適用し、従来の直線型設計より向上した冷却性能を確保している
- さらにbare-die冷却(TPUv4、過去のTPUv3はlidded)を適用しており、一般に上級PC愛好家が熱伝達効率を高めるために行う「delidding」に近い
- TPUv4はv3比で1.6倍高い消費電力のため、このような追加冷却方式を必要とする
電力効率と熱移動
- 液体冷却ポンプの消費電力は、従来の空冷ファン電力に対して5%未満とされる
- Googleのシステムはwater-to-water熱交換方式を通じて、実質的な冷却動力の大部分をポンプが担う
- PC愛好家の環境では多くの場合ファン+ラジエーターの組み合わせが残っており、データセンターほど電力面の利点は大きくない
保守、信頼性、安全性
- 保守の観点では、微生物繁殖や漏水リスクなど、水冷システムに共通するリスクがデータセンター規模でも存在する
- クイックディスコネクトフィッティング、予備CDUなど、さまざまな保守支援機構によってダウンタイムなしの大規模運用を目指している
- 予防保全、漏水テスト、各種異常信号の検知、体系的な対応プロトコルを整備し、全社的な一貫性と信頼性の確保策を講じている
- これは個々のPC愛好家による非公式な管理方法とは対照的である
業界動向とAIブーム
- NVIDIA、Rebellions AIなどもHot Chips 2025の展示でさまざまな外部液体冷却システムを披露した
- NVIDIA GB300サーバー: 外部液体冷却ポートとファンを併設
- Rebellions AIは韓国企業で、新しいMLアクセラレータ「REBEL Quad」のプロトタイプを、クーラーとチラーを組み合わせた類似方式で実演した
- AIワークロードの増加は、今後もデータセンター向け液体冷却への需要と採用をさらに加速させる見通しである
1件のコメント
Hacker Newsのコメント
以前、Azureデータセンター構築を統括するSVPのインタビューを見たことがある。ある時点で、自分はもはやコンピュータ事業ではなく産業用冷却事業に携わっているのだと気づいてから、仕事がずっと簡単になった、という話が印象に残っている。今回の記事を読みながら、まさにその話を思い出した。
メインフレーム(S/3x0、Crayなど)は50年以上にわたって広く水冷を使ってきたし、スーパーコンピュータ級のHPCデータセンターも少なくとも20年間は液冷を活用してきた。Google級のデータセンター設計をPCマニアの冷却と比較するのはやや奇妙に感じる。これは過去を忘れているか、比較対象が完全に間違っている例だ。
理論上、データセンターの冷却は単純だ。CPUは60〜70度で動作し、外気温はたいてい30度以下なので、ファンとポンプの少しの助けがあれば熱は自然に「下っていく」構造だ。問題は、空冷では施設のスタッフがコンピュータ冷却に使われるのと同じ空気を吸わなければならないことだ。冷房温度が上がると、スタッフの健康には良くない(うちではホットアイルを冬でも100F程度まで運用し、3ラックごとに熱交換器を設置して外部チラー水で冷却している)。外気温が上がると、熱を建物の外へきちんと逃がすには冷却流体の温度をさらに高くする必要があり、チラーが不可欠になる。暑い時期にはエネルギー消費も大幅に増える。もしデータセンター全体を液冷に切り替えるなら、ラックから出てくるクーラント温度をはるかに高くできるし、最も暑い時期でもチラーなしで放熱できるかもしれない。現状では一部だけが液冷で、クーラント温度はホットアイル温度に合わせて制限されている。この温度だけでもすでにかなり暑いと感じる。
記事ではTPUチップを直列につないで冷却水ループを通し、最後のチップ温度に合わせて容量を見積もるという話があった。4つのチップがそれぞれ250Wを出し、ポンプが毎分1リットルの水を送るなら、入口に比べて出口は必ず14度高くなる。これは直列でも並列でも同じだ(水の比熱のため)。
もう以前ほどGoogleインフラに大きな期待はしていない。Googleがインターネットの自由を損なう動きを続けているので、好感度が大きく下がった。今では、彼らが導入する液冷システムのようなものにもあまり感銘を受けない。細部次第で難しいのだろうが、特別に革新的とも感じない。もしGoogle社員がこれを見て気分を害したとしても、個人ではなくGoogle自体の問題だと思ってほしい。すごい仕事は別の場所でもできることを考えてみてもいい。
B1Mで見た興味深い事例を思い出した。パリ五輪のプールはインターネットの熱で温められているらしい。YouTube動画
AIが水を浪費するという話をよく見るが、今回の事例もそういう形なのか気になる。CDUが施設内の水を蒸発冷却に使っているのか知りたい。
水冷の経済性が気になる。チップが高価になってより速く回す必要があるから液冷が有利になったのか、それともデータセンターのスペースが高価で、密度をさらに上げる必要があるからなのか、あるいは信号伝送距離(1フィート = 1ナノ秒)を縮めればそれだけ計算効率が上がるからなのか、と考えている。
理論上、PCユーザーもトイレのタンクに放熱水を循環させれば、流すたびに効率よく冷却できる。未来はここにある。
2006〜2012年ごろ、データセンターでよく働いていた。夜遅くに行かなければならないことも多かった。データセンターは思っている以上に過酷な環境だ。冷却がもう少し静かで極端でなければよかったと思う。ポートなどが背面にあるのは、まさにそちらが吸気側だからだ。暖かい側に行って手を温めたりしていたのを思い出す。