45°C冷却設計でデータセンターの水使用量をほぼゼロに削減
(blogs.nvidia.com)- AIサーバーの電力密度が高まる中、冷却はデータセンターのコストと水使用の主要なボトルネックとなっており、NVIDIAはRubin世代で冷却液を最大 45°C で運用する設計を打ち出している
- Rubin世代のAIインフラは、チップとネットワーキング構成要素までファンなしで冷却する 100%液冷 構造で、クローズドループとドライクーラーを中核に据える
- 条件の良い気候では、従来の冷却塔ベースのシステムが使っていた年間メガワット当たり約 260万ガロン の水をほぼゼロまで減らし、最大100%削減できる
- 45°Cの冷却液はチップから熱を吸収して約 55°C で出ても、検証済みの動作限界内にとどまり、サーバーは冷たい空気への依存を減らせる
- 完全液冷は、ファン、コールド/ホットアイル、空冷インフラの設置スペースを減らし、ラック密度を高めることで、AIコンピューティング需要の増加に伴う 冷却コスト負担 を下げる方向にある
Rubin世代の100%液冷
- NVIDIAの最新AIサーバーは、冷却液を最大 45°C、すなわち113°Fまで運用できる
- Rubin世代のNVIDIA AIインフラは、すべてのチップとネットワーキング構成要素を液体で冷却する 100%液冷 を実現している
- システムのどこにもファンがない
- 冷却はクローズドループ内で行われる
- この方式は、AIファクトリーインフラスタックの設計・構築・運用のベストプラクティスを盛り込んだ NVIDIA DSX AIファクトリー参照設計に含まれている
- 各世代がワット当たりのコンピューティング性能を高める中、完全液冷のAIコンピュートインフラはハイパースケールデータセンターの 冷却エネルギー消費 を大幅に減らせる
水と電力使用を減らす構造
- NVIDIA DSX AIファクトリー参照設計は 水消費ゼロ を目標とし、大きな電力使用とほぼすべての水使用を減らす方向を目指している
- ドライクーラーベースの設計はクローズドループシステムであるため、蒸発式の水冷を使わない
- 一部の気候では、年間を通して約 1% 程度だけチラーが必要になる可能性がある
- 歴史的に、冷却はデータセンターの電力消費の最大 40% を占めてきた
- 業界推定によれば、チラープラントの温度を1°C上げると、冷却エネルギーコストを約 4% 削減できる
- 50MW級のハイパースケール施設は、液冷インフラへ移行すると、冷却関連のエネルギー費用と水コストを年間 400万ドル以上 節約できる
- 条件の良い気候では、45°C液冷アーキテクチャによってチラーなしの運用が可能になり、従来の冷却塔ベースのシステムの年間メガワット当たり約 260万ガロン の水使用をほぼゼロまで下げられる
冷たいデータセンターが常に効率的とは限らない
- 業界では長年、冷たいデータセンターほど効率的だという認識があった
- 実際のチップは、直感よりもはるかに暖かい環境でも動作できる
- 完全液冷チップに 45°Cの冷却液 が入ると、チップ表面で熱を吸収して約55°Cで出る
- この過程でも性能は低下しない
- 液冷コールドプレートがデバイス温度を検証済みの動作限界内に維持する
- ラックに入る冷却液が45°Cであっても、プロセッサは最大性能で動作し続ける
- サーバーが冷たい空気に依存しないため、データセンターの周囲空気温度はより柔軟に設定できる
ファンとコールド/ホットアイルが減るサーバー構造
- 従来のデータセンターは、ファンの騒音とコールド/ホットアイル管理に大きく依存していた
- 冷却ファンは全体の騒音を 85dB以上 に高めることがある
- この水準は耳の保護具が必要になるほど大きい
- Rubinアーキテクチャは、冷却の中心を気流から液体ループへと移す
- 冷却液は 水75%とプロピレングリコール25% で構成される
- この冷却液は、プロセッサ上に直接置かれたコールドプレートを通り、熱を発生源で吸収する
- 冷却液を最大45°Cで運用すると、多くの気候で機械式チラーや騒音の大きいファンなしに施設ループが熱を排出できる
- 適した地域では、冷却分配装置が熱を発生源で回収し、建物外の大型ラジエーターコイル形状の ドライクーラー へ送る
- ループは一度充填された後、施設の寿命のあいだ密閉状態で運用される
- 従来の空冷インフラよりもAIファクトリー内で占めるスペースが大幅に減る
気候条件と廃熱活用
- 地理的条件は重要な制約となる
- Scottish HighlandsのデータセンターとPhoenix, Arizonaのデータセンターでは、冷却の現実が異なる
- 暖かい気候でも、45°C冷却液はチラーなし運用により近づける
- 外気温のために必要となる数日間だけチラーが稼働する可能性がある
- 新しいAIファクトリーモデルは 廃熱回収 の可能性も提供する
- AIファクトリー運用で余った熱を、近隣の商業用または住宅用建物の暖房に再利用できる
完全液冷のためのエンジニアリング変化
- 以前の液冷サーバーはハイブリッド構造だった
- GPUとCPUはコールドプレートを使用していた
- 残りのシステムはフィン型ヒートシンクと空冷に依存していた
- 完全液冷サーバーでは、こうした構成要素の冷却方式を液体ベースに再設計する必要があった
- NVIDIAの熱エンジニアリングチームは、複数の高電力チップに液体を供給する方式を簡素化した
- ボード上の複数チップへ 単一の入口と出口 で液体をルーティングする
- よりすっきりしたトレイレベルの冷却アーキテクチャになった
- サーバーの外観と設置密度も変わる
- Rubinサーバーは、空冷サーバーの穴あきベゼルの代わりに、クリーンで密閉された前面パネルを持つ
- 完全液冷サーバーは空冷サーバーより高いラック密度を可能にする
- 以前は6Uを占めていたシステムが2Uに収まり、より少ないスペースと騒音で、より多くのコンピューティングを提供する
AIインフラ拡張と冷却効率
- AIワークロードは軽くなっていない
- データセンター建設を牽引するコンピューティング需要は、ほぼすべてのインフラ投資カテゴリよりも速く増加している
- コンピューティング冷却方式の効率改善がなければ、大規模AI運用のエネルギーコストはハードウェア増加とともに膨らむ
- 最大 45°C液冷 は、ハードウェア拡張と冷却コストの間のギャップを縮めるための手段となる
1件のコメント
Hacker Newsの意見
「屋外の空気が安定して涼しい地域」という条件こそが落とし穴
「寒い場所にデータセンターを建てて冷却資源を節約し、廃熱を周辺環境に丸ごと捨てて汚染しよう」という話に聞こえる
Nvidiaが何か良いものを作ったのかと危うく思うところだった
低い気温、広い空き地、大きな自然環境問題が少なく、あっても抗議する市民があまり多くない
冷却に水がさらに必要なら、溶ける氷から十分に使えるかもしれない
無料の暖房 なんていいじゃないか
Linusも余ったCPUの熱でプールを温めている
要は怖がらず賢く使うことで、AIとデータセンターはこれからも残るのだから、戦うより廃熱を収益化できる
冷却水を海ではなく川に直接流すときに原発の廃熱が問題になる、という話しか聞いたことがない
たとえば 住宅暖房 に使える
面白いシナジーが生まれる: 地域暖房
45°Cは低いとはいえ、地域暖房の循環網に使えないほどではなく、データセンターが熱を無料で提供するなら地域社会にとってかなり良い提案になりうる
近くのデータセンターの地域社会に対する価値は、ほぼ0から年間数百万ドルまで跳ね上がる可能性がある
夏は依然として問題だが、面白い解決策も考えられる
地質条件が合えば、夏に地下空間を温めておき、冬にその熱の一部を回収できるかもしれない
多くの気候帯では、人々が天窓をばかみたいな使い方でもしない限り、年間の冷房費より暖房費のほうがはるかに大きい [0]
[0] 大まかな計算では、伝導と空気交換による暖冷房負荷は室内外の温度差に比例する
冬の外気温 -10°F~30°F は珍しくなく、室内の70°Fとは40~80°Fの差がある
一方でこうした気候の夏の外気温は95°Fを超えることがまれで、たいていはもっと低いため、冷房の差は15~25°F程度にとどまる
ヒートポンプも温度差が小さいほど効率が良くなる
輻射暖房はまったく別の話だ
新築では通常ヒートポンプを使う流れになっている [1]
Mäntsäläの75MWデータセンターは10年間にわたり町の暖房の2/3、つまり2,500世帯分を供給してきた [2]
ヒートポンプは本当にすごい
季節ごとの蓄熱もすでに使われている技術で、Espoo近郊には数十GWh規模の貯蔵施設があり、90GWhの新しい洞窟型貯蔵施設も進行中だ
それらのシステム同士が相互接続されているかどうかは分からない
記事でこの工学的問題が以前は解決されたことがないと書かれていたのも興味深い
Googleはチップを以前より高温で動かす方法を先に切り開いていたし、一般向けPCでも水冷はずっと前からあった
少なくとも30年は経っている
新しく見えるのは、すべてのチップを循環回路に接続した点だが、PSUをどう処理したのかは見つけられなかった
そして45°C以下になって戻ってくる構造なのかもしれない
寒い冬がある北半球の大半のデータセンターでもそうなる可能性が高い
見落としているだけかもしれないが、ここで何が革新なのかよく分からない。
普段より高い温度の液体冷却材を使うことは分かるが、なぜ以前はできなかったのかが分からない。
記事の比較はほとんどが空冷データセンター基準だが、他の水冷データセンターと比べるとどうなのか。
以前のデータセンター設計でも、必要な動作温度、エネルギー使用量、発生熱量などは誰かが計算していたはずだ。
編集: 今ちょうどこの部分を見つけた。
「従来の水冷サーバーはハイブリッドだった。GPUとCPUにはコールドプレートが付いていたが、残りのシステムは空冷のままで、フィン付きヒートシンクが動く空気で熱を逃がすよう設計されていた。完全水冷サーバーでは、こうした構成要素の冷却を液体ベースで全面的に再設計する必要があった。」
あとはマーケティングに近い。
Crayのスーパーコンピューターはすでに1980年代に流体冷却を使っており、基板全体に不活性液体が流れていた。
そこから少し上げるだけではものすごく興味深いとは言えなくても、依然として革新とは言える。
冷却コストと故障率・設備投資の間にはトレードオフがある。
こうした部品は簡単に100°Cを超えるほど熱くなるため、循環回路を55°Cで安定維持するには相当な工夫が必要だ。
革新は、データセンターの各所に冷却材をどれだけ速く、どれだけ大量に流して温度を制御するかにあるのかもしれない。
もちろん、すべての部品をファンレス設計と両立するよう再設計したことも含まれる。
Nvidiaが以前よりはるかに垂直統合されているからこそ可能になったことのように思える。
ところが、最新方式というものが水を使って排出する方向に固まってしまった。
データセンターも他の産業施設と同じように、好き勝手にできる都市・郡・州を探して都合よく運営し、それが唯一のやり方であるかのように慣れてしまっているようだ。
複数の地域社会が反発し、環境被害を訴えても無視されてきたが、技術仕様だと言われれば受け入れられるのかもしれない。
「有利な気候におけるNvidiaの45度液体冷却アーキテクチャ…」とあるが、当然ながらGreenland以外で有利な気候とは何なのか気になる。
この記事には外気温と効率・コストの相関についての説明があまりにも少ない。
大まかな説明だけでもあればよかった。
ドイツの気温はかなり高くなることもあるが、技術担当者によれば、30°C台後半でのみ能動冷却、つまりエアコン式の冷却が必要になるという。
技術自体はかなり興味深い。
https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
45°Cの供給温度を保証するには、外気温がおおむね37°C以下である必要がある。
ほとんどの地域では、一定の時間帯に依然として冷却塔やコンプレッサーが必要になるため、関連インフラを一式構築しなければならない。
それでも、使用量を減らすだけで水やエネルギーを大きく節約できる。
たとえばロンドン郊外はかなり温暖だと思われがちだが、今週だけでも補助冷却が必要だった可能性が高い。
こちらのデータセンターでは冷却システムを外気温40°C超にも耐えられるよう設計しているが、今ではその数値も保守的な想定ではなくなっている。
また、Nvidiaが45°Cの給水で問題ないとしても、35°Cのようなもっと低い温度ならハードウェア寿命が延びる可能性が高い。
GPUは高価であり、寿命延長は水やエネルギーを少し余分に使うことより価値があるかもしれない。
実際には、AI演算装置の「隣」にストレージサーバー、追加のCPU演算装置、ネットワークスイッチのような空冷システムもある可能性が高い。
そのため、別個のスペースと冷却システムが必要になるかもしれない。
それでも大きな前進だ。
これを読んでも、なぜブレークスルーなのか分からない。
ほとんどの商業・産業用冷却アプリケーションですでに使われている閉鎖式冷却循環回路と同じに見える。
記事では、適した気候であれば水/グリコール循環回路の熱を逃がすためにラジエーターを屋外に置けるとしている。
だとすると、北極圏でない場所では依然として凝縮循環回路が必要ということではないのか。
何か見落としているのだろうか。
NASA Ames Research CenterのModular Supercomputing Facilityは、電力と水の使用という点で非常に効率的だ。
この施設はエアコンを使っていない。
チップは水冷で、入口水温もかなり高いと聞いている。おそらく華氏90度程度だ。
https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...
米軍やNASAも、もうメートル法を使っているのではないか。
ひどいAI調の文章にがっかりした人向けに要約すると、これは 完全水冷データセンター設計 の話です。
サーバー冷却の一般的な方式は、デスクトップやノートPCのように熱いハードウェアにヒートシンクを取り付け、空気で冷やすことです。
ハードウェアがより高密度で高性能になるほど、より大きなヒートシンクとより冷たい空気が必要になります。
ある時点で、空間の制約からヒートシンクをこれ以上大きくできず、騒音や効率の問題から空気もこれ以上速く流せなくなります。
すると吸気を冷やすために、水を蒸発させる冷却機を回すことになります。
私たちが避けたい莫大な水消費はここで発生します。
次の段階は当然、液体冷却です。
これもハイエンドのゲーミングデスクトップに似ています。
空間が限られた内部では、小さな熱交換器で液体媒体に多くの熱を移し、外部では冷却水と屋外の空気との温度差が小さくても巨大な熱交換器で熱を捨てられます。
この記事は、CPU、GPU、メモリ、ネットワーキングまで含めてすべてを 完全液体冷却 するシステムについてです。
そこが実際にすごい部分です。
さらにこの解決策は、冷却水をかなり高温で運用できるよう最適化されています。
これはハードウェア側の熱流束を制限しますが、外部熱交換器を「乾式」で運転できるようにし、水の潜熱を無駄にしないようにしてくれます。
ほかのさまざまな用途と比べれば、データセンターの水使用量はすでにほぼゼロに近いものでした。
もともとPRやイメージの問題に近いものを「問題解決」だとして、大々的に宣伝しながら多大な労力を注ぐのを見るといつも憂うつになります。
なぜよりによって45°Cで、なぜ 水冷 なのか。
すべてを室温、または少し冷たい空気に合わせて作るのは奇妙な選択に感じます。
すでに290K〜300K程度なのだから、今度は320Kや330Kでも問題なく動くという話ではないのですか。
なぜ単に200°C近辺で動作するように設計し、周囲の空気を押し込むフリークーリングを使わないのか気になりました。
なぜデータセンターは鶏小屋のような見た目ではないのでしょうか。
何かが溶けるのでしょうか。
高温では別の種類のエラーがもっと増えるのでしょうか。
ごくわずかな追加エネルギーを受けるだけで、絶縁体から導体になり得る物質です。
逆に、良い絶縁体は導電し始める前に燃えるか、プラズマになります。
エネルギーは結局エネルギーなので、周囲の熱が十分高ければ、バンドギャップが小さいため電子をより高い軌道へ押し上げることができます。
通常の周囲温度でもこうしたことは起きますが、電子は遠くまでは行かず、数も多くありません。
200°Cでは閉じたゲートが電子の移動を十分に防げません。
大ざっぱに手を振って説明した技術的理由はこんなところで、YouTubeのProject in Flightには半導体の動作原理をうまく説明した動画があります。
半導体の電気的特性は温度によって大きく変わります。
まったく別のチップと、まったく別の製造プロセスが必要になるでしょう。