Mac Studioで1.5TB VRAMを構築する - Thunderbolt 5ベースのRDMA

(jeffgeerling.com)

6 ポイント投稿者 GN⁺ 2025-12-19 | 2件のコメント | WhatsAppで共有

macOS 26.2で新たに追加された**Thunderbolt 5ベースのRDMA（Remote Direct Memory Access）**機能を使い、複数のMac Studioを1つの巨大なメモリプールのように動作させる実験
Exo 1.0オープンソースクラスタリングツールを使用して1.5TBの統合メモリを構成し、大規模AIモデルの実行速度を向上
M3 Ultra Mac Studioは単一ノードでも高い演算性能と効率を示し、RDMA適用時にはメモリアクセス遅延が300μsから50μs未満に減少
Thunderbolt 5のケーブル複雑性、スイッチ不在、macOSの管理上の制約など、クラスタ運用上の限界も存在
RDMAとExoの組み合わせはMacベースのAI・HPC環境の拡張可能性を示す一方、安定性と拡張性にはなお改善が必要

Thunderbolt 5上のRDMA実験の概要

Appleが提供したMac Studioクラスタを使って、macOS 26.2のRDMA over Thunderbolt機能をテスト
- RDMAにより複数のMacが1つの大容量RAMのように動作し、大規模AIモデル処理の速度を高める
テストにはExo 1.0オープンソースAIクラスタリングツールが使われた
合計1.5TBの統合メモリを構成したMac Studio 4台の価格は約4万ドル

AppleのHPCの歴史とM3 Ultraの位置づけ

AppleのHPC関連の取り組みは、過去のXserveとXgridの時代以降ほとんどなかった
M3 Ultra Mac StudioはローカルAIモデル実行に適した性能を示し、RDMA対応によってクラスタリング時の遅延が300μsから50μs未満に減少
250W以下の電力で静かに動作し、小規模な科学計算やクリエイティブ作業にも適している

ハードウェア構成とネットワーキング

下段の2台は512GB RAM / 32コアCPU、上段の2台は256GB RAM構成
Thunderbolt 5を通じて実効帯域幅50〜60Gbpsを提供するが、Thunderboltスイッチが存在しないため各Macを直接相互接続する必要がある
QSFPポートを使うNvidia DGX Sparkと比べると、ネットワークの安定性は劣る
Thunderboltケーブル固定用のThunderLok-Aはあるが、Mac Studio本体の改造が必要なため適用しなかった

M3 Ultra Mac Studioの性能ベンチマーク

GeekbenchではDell Pro Max（GB10）およびAMD AI Max+ 395よりシングル・マルチコアともに優れる
FP64 HPLベンチマークで1 Tflopを突破し、Nvidia GB10の約2倍の性能
大規模AIモデル推論でも優秀で、同一電力あたりの効率が高い
単一のM3 UltraがDell Pro Maxの2ノードクラスタより性能・効率の両面で上回った

クラスタ管理とmacOSの制約

macOSはSSHでシステムアップグレード不可で、GUI操作が必要
Screen Sharingを使ってリモート管理を実施
Linuxと比べてクラスタ管理の自動化が難しく、MDMツールの不在による不便さもある

HPLおよびLlama.cppテスト

HPLは単一ノードで1.3 Tflops、4ノード構成では3.7 Tflopsとなり約3倍向上
ThunderboltベースのTCP接続ではシステムクラッシュが発生し、RDMA未使用時は不安定
Llama.cppテストではThunderbolt 5が2.5Gbps Ethernetより低遅延を示した

RDMA有効化とExo 1.0テスト

RDMA有効化手順: 復旧モードに入る → rdma_ctl enableコマンドを実行 → 再起動
Exo 1.0はRDMAをサポートする唯一のツールで、**600GB超のモデル（Kimi K2 Thinkingなど）**を複数のMacに分散して実行可能
Llama.cppはRPC方式でモデルレイヤーを分散するが非効率
Exoはノード数の増加に応じて性能が向上し、Qwen3 235Bモデルで毎秒32トークン処理を達成
DeepSeek V3.1と**Kimi K2 Thinking（1兆パラメータ）**モデルの実行にも成功

安定性の問題とオープンソース上の課題

テストはプレリリースソフトウェアをベースに行われたため、不安定さがある
RDMA動作時の性能は優秀だが、失敗するとクラスタ全体の再起動が必要
Exo開発チームはしばらく活動を停止した後に復帰し、Apache 2.0ライセンスで公開されている
Appleとの協業に伴う非公開の開発プロセスへの懸念にも言及

今後の課題と未解決の疑問

M5 Ultraの発売有無と、機械学習性能向上の可能性
Mac ProのPCIe拡張性復活によるクラスタリング改善の必要性
SMB Direct対応時の高速ファイル共有の可能性
Llama.cppなど他ソフトウェアでのRDMA対応拡大への期待

結論

RDMAとExoの組み合わせはMac StudioのAI・HPC活用可能性を大きく広げる
しかしThunderbolt 5の構造的限界とmacOS管理上の制約は依然としてボトルネック
QSFPポート導入など、ネットワーク拡張性の改善が必要
AIブームが過ぎても、Mac Studioは静かで強力なワークステーションとして価値を保つ

2件のコメント

kaydash 2025-12-21

impalaを思い出しますね

GN⁺ 2025-12-19

Hacker Newsの意見

M5 Max/Ultraに期待する点をまとめていた
Thunderboltの代わりに、DGX級の**QSFPリンク（200Gb/s以上）**に対応してほしい。RDMAの構成は魅力的だが、この程度の速度がなければ経済性が低い
Neural acceleratorでプロンプトのprefill時間を短縮したい。RTX 6000級でなくても、3090/4090程度で十分
Mac Studioの最上位構成には1TBのユニファイドメモリを期待している。複数台の機材を使うよりメモリを増やすほうが効率的だと思う
帯域幅も+1TB/sまで上げてほしい。ここ3世代ほど800GB/sにとどまっている
オーバークロック機能も可能になってほしい。Mac StudioはノートPCではないので、600W以上消費しても問題ないと思う。現状は約250Wに制限されている
また、このRDMA構成では最大4台のMacしか接続できない。すべてのMacが相互に直接接続される必要があるためだ。だからAppleはQSFPのような高速リンクに投資すべきだと思う
- 1TBメモリだなんて、我々のような一般ユーザーが買えるRAMも少しは残しておいてくれないか？「AIよ、人類を幸せにしてくれ！」という感じだ
- M4はすでにチャネル当たり必要な速度を達成しており、M5はそれ以上だ。Ultra版が出るなら1TB/sの帯域幅は確実に可能だろう。MaxはUltraの半分なので、そこまではいかないはずだ
- Mac Studioには650W級の発熱を継続的に処理できる熱設計がない。このレベルはMac Proの設計でこそ可能だろう
- M3 Ultra Mac Studioの前面USB-CポートもThunderbolt 5なので、合計6ポートある。公式スペックを見ると、なぜ4台制限が必要なのか気になる
- Apple Neural EngineはすでにINT8、FP16演算をサポートしている。ただしAIフレームワーク側がこれを十分に活用できていない
  それに、すべてのMacを完全メッシュ接続する必要があるのかも疑問だ。ThunderboltはネットワークインターフェースのようにRDMA上で動作するのではないかと思う
Appleがなぜサーバークラスタ向けのRDMAのような機能を出しながら、リモート管理やラックマウントといった基本的な品質改善は無視しているのか疑問だ
社内でMシリーズのサーバー製品を使っていて、こうした機能はその副産物なのかもしれないと思う
- おそらくAppleは本当にサーバー級製品を準備していて、サードパーティー製ソフトウェアが事前に対応できるようRDMAを先行公開したのかもしれない
- Mac StudioはLLM推論向けとして独自の立ち位置にある。RDMAは一般的なサーバー向けではなく、4台のStudioを束ねてLLM推論クラスタとして使うための機能だと思う
- 以前、AppleがPrivate Compute機能のためにM2 Mac Proをラックに積んで使っていたという話を聞いた
- Appleが自前のデータセンターを運用しているのか気になる。大半はGCPにアウトソーシングしているのだと思っていた
- 前から気になっていた。なぜ開発用ツーリングがこんなに貧弱なのか、Apple社内ではどんな環境を使っているのか。ThunderboltケーブルでMac Miniをつなぐのは少しもどかしい
Jeffの作業は本当に素晴らしい。ThunderboltベースのRDMAの話も興味深かった
何よりJeffの前向きなエネルギーと継続的な貢献に感謝したい
LinuxはRDMAをサポートしているが、Thunderboltではまだ不可能だ。これを実装するにはかなり多くの作業が必要そうだ
安価なStrix Haloボックス（128GB DDR5-8000、USB4×2）を2〜3台束ねて大きなモデルを動かせたらよいと思う
現在のThunderboltにはスイッチがないため、クラスタ規模が制限される
その代わりRoCE（RDMA over Converged Ethernet）が使えるのか気になる。RDMAはTCPより7〜10倍速いと聞いた
10G〜80GのThunderbolt Ethernetアダプタもあるが、レイテンシが問題かもしれない
PCIeスロットがあればInfinibandカードを挿すだけで済むが、結局はドライバが鍵だ
- ThunderboltをPCIeに変換して一般的なNICを使うことも可能だ。Atto Thunderlinkも実質的にはBroadcom NICを包んだケースだ
  AppleがMLX5ドライバをiPadOSにまで含めていたのは驚きだ。関連ブログ参照
- macOSにはMellanox ConnectXカード向けドライバが含まれているが、ibv_devicesに実際に表示されるのかはわからない
入力（prefill）速度と出力（decode）速度を分けて測定したデータが気になる
Macハードウェアではこの2つの速度がかなり違うという話がExoの記事にあった
- 関連データはこのGitHub Issueに一部ある。
  Exoチームにベンチマーク機能の追加を提案してみるつもりだ
Thunderbolt 5が思ったほど圧倒的ではない点が興味深かった
2.5Gbps Ethernetと比べて、TB5は約10%速い程度だった。M3 Studioは10Gbps Ethernetをサポートするが、テストはされていなかった
TB5はすべてのCPUが互いに直接接続される必要があるため、4台制限がある。一方、Ethernetスイッチを使えば、より多くのノードを接続できる
- この動画では10Gbps Ethernetでテストしている
- 過去のllama RPCの経験では、10G Ethernetによる速度向上はわずかだった。レイテンシのほうが重要だが、それにも限界がある
- llamaはまだ最適化が不十分でスケーラビリティが低かった。RDMAはEthernetよりオーバーヘッドが低い
クラスタの各ノードは512GB RAMを持つ。DeepSeek V3.1モデルには700GB RAMが必要だ
1ノードから2ノードに増やしたときに推論速度が32%しか向上しなかったのが不思議だ。4ノードでも50%未満の向上だ
何らかのボトルネックがあるようだ
- ネットワーク帯域幅が80Gbpsなので、それがボトルネックだ。Infinibandはその10倍速い
- モデルの重み（weights）は読み取り専用なので、SSDにメモリマップしてもよい。本当の制約はactivationメモリだ。MoE構造が役立つかもしれない
- TB5 RDMAはシステムメモリへの直接アクセスよりはるかに遅い
すべてのノードが相互接続される構造は、SGIのNUMALinkを思い出させる
SGIのスーパーコンピュータでは、各ノードが他のすべてのノードと2本のリンクで接続されていた。ケーブルは多いが、フレーミングや輻輳制御を考える必要がなかった
- SGIハードウェアはccNUMA（cache-coherent NUMA）を実装していた。IRIX OSはジョブとメモリを物理的に近い場所へ移してレイテンシを下げていた
  今日の高頻度取引システムがCPUコアとDIMM位置を考慮してプロセスを配置するのも同じ文脈だ
- NVL72ラックもGPU間に数十本のリンクを張ることで似た構造を持っている
記事で見たいくつかの興味深いディテールが気に入った
Exoの謎の失踪、JeffがMac向けSMB Directを望んでいること、M3 Ultraの推論速度、そして2100ドルのFramework AIデスクトップなど
おかげで新たなrabbit holeを見つけた気分だ

Mac Studioで1.5TB VRAMを構築する - Thunderbolt 5ベースのRDMA

Thunderbolt 5上のRDMA実験の概要

AppleのHPCの歴史とM3 Ultraの位置づけ

ハードウェア構成とネットワーキング

M3 Ultra Mac Studioの性能ベンチマーク

クラスタ管理とmacOSの制約

HPLおよびLlama.cppテスト

RDMA有効化とExo 1.0テスト

安定性の問題とオープンソース上の課題

今後の課題と未解決の疑問

結論

関連記事

2件のコメント

Hacker Newsの意見