- macOS 26.2で新たに追加された**Thunderbolt 5ベースのRDMA(Remote Direct Memory Access)**機能を使い、複数のMac Studioを1つの巨大なメモリプールのように動作させる実験
- Exo 1.0オープンソースクラスタリングツールを使用して1.5TBの統合メモリを構成し、大規模AIモデルの実行速度を向上
- M3 Ultra Mac Studioは単一ノードでも高い演算性能と効率を示し、RDMA適用時にはメモリアクセス遅延が300μsから50μs未満に減少
- Thunderbolt 5のケーブル複雑性、スイッチ不在、macOSの管理上の制約など、クラスタ運用上の限界も存在
- RDMAとExoの組み合わせはMacベースのAI・HPC環境の拡張可能性を示す一方、安定性と拡張性にはなお改善が必要
Thunderbolt 5上のRDMA実験の概要
- Appleが提供したMac Studioクラスタを使って、macOS 26.2のRDMA over Thunderbolt機能をテスト
- RDMAにより複数のMacが1つの大容量RAMのように動作し、大規模AIモデル処理の速度を高める
- テストにはExo 1.0オープンソースAIクラスタリングツールが使われた
- 合計1.5TBの統合メモリを構成したMac Studio 4台の価格は約4万ドル
AppleのHPCの歴史とM3 Ultraの位置づけ
- AppleのHPC関連の取り組みは、過去のXserveとXgridの時代以降ほとんどなかった
- M3 Ultra Mac StudioはローカルAIモデル実行に適した性能を示し、RDMA対応によってクラスタリング時の遅延が300μsから50μs未満に減少
- 250W以下の電力で静かに動作し、小規模な科学計算やクリエイティブ作業にも適している
ハードウェア構成とネットワーキング
- 下段の2台は512GB RAM / 32コアCPU、上段の2台は256GB RAM構成
- Thunderbolt 5を通じて実効帯域幅50〜60Gbpsを提供するが、Thunderboltスイッチが存在しないため各Macを直接相互接続する必要がある
- QSFPポートを使うNvidia DGX Sparkと比べると、ネットワークの安定性は劣る
- Thunderboltケーブル固定用のThunderLok-Aはあるが、Mac Studio本体の改造が必要なため適用しなかった
M3 Ultra Mac Studioの性能ベンチマーク
- GeekbenchではDell Pro Max(GB10)およびAMD AI Max+ 395よりシングル・マルチコアともに優れる
- FP64 HPLベンチマークで1 Tflopを突破し、Nvidia GB10の約2倍の性能
- 大規模AIモデル推論でも優秀で、同一電力あたりの効率が高い
- 単一のM3 UltraがDell Pro Maxの2ノードクラスタより性能・効率の両面で上回った
クラスタ管理とmacOSの制約
- macOSはSSHでシステムアップグレード不可で、GUI操作が必要
- Screen Sharingを使ってリモート管理を実施
- Linuxと比べてクラスタ管理の自動化が難しく、MDMツールの不在による不便さもある
HPLおよびLlama.cppテスト
- HPLは単一ノードで1.3 Tflops、4ノード構成では3.7 Tflopsとなり約3倍向上
- ThunderboltベースのTCP接続ではシステムクラッシュが発生し、RDMA未使用時は不安定
- Llama.cppテストではThunderbolt 5が2.5Gbps Ethernetより低遅延を示した
RDMA有効化とExo 1.0テスト
- RDMA有効化手順: 復旧モードに入る →
rdma_ctl enableコマンドを実行 → 再起動
- Exo 1.0はRDMAをサポートする唯一のツールで、**600GB超のモデル(Kimi K2 Thinkingなど)**を複数のMacに分散して実行可能
- Llama.cppはRPC方式でモデルレイヤーを分散するが非効率
- Exoはノード数の増加に応じて性能が向上し、Qwen3 235Bモデルで毎秒32トークン処理を達成
- DeepSeek V3.1と**Kimi K2 Thinking(1兆パラメータ)**モデルの実行にも成功
安定性の問題とオープンソース上の課題
- テストはプレリリースソフトウェアをベースに行われたため、不安定さがある
- RDMA動作時の性能は優秀だが、失敗するとクラスタ全体の再起動が必要
- Exo開発チームはしばらく活動を停止した後に復帰し、Apache 2.0ライセンスで公開されている
- Appleとの協業に伴う非公開の開発プロセスへの懸念にも言及
今後の課題と未解決の疑問
- M5 Ultraの発売有無と、機械学習性能向上の可能性
- Mac ProのPCIe拡張性復活によるクラスタリング改善の必要性
- SMB Direct対応時の高速ファイル共有の可能性
- Llama.cppなど他ソフトウェアでのRDMA対応拡大への期待
結論
- RDMAとExoの組み合わせはMac StudioのAI・HPC活用可能性を大きく広げる
- しかしThunderbolt 5の構造的限界とmacOS管理上の制約は依然としてボトルネック
- QSFPポート導入など、ネットワーク拡張性の改善が必要
- AIブームが過ぎても、Mac Studioは静かで強力なワークステーションとして価値を保つ
2件のコメント
impalaを思い出しますね
Hacker Newsの意見
M5 Max/Ultraに期待する点をまとめていた
Thunderboltの代わりに、DGX級の**QSFPリンク(200Gb/s以上)**に対応してほしい。RDMAの構成は魅力的だが、この程度の速度がなければ経済性が低い
Neural acceleratorでプロンプトのprefill時間を短縮したい。RTX 6000級でなくても、3090/4090程度で十分
Mac Studioの最上位構成には1TBのユニファイドメモリを期待している。複数台の機材を使うよりメモリを増やすほうが効率的だと思う
帯域幅も+1TB/sまで上げてほしい。ここ3世代ほど800GB/sにとどまっている
オーバークロック機能も可能になってほしい。Mac StudioはノートPCではないので、600W以上消費しても問題ないと思う。現状は約250Wに制限されている
また、このRDMA構成では最大4台のMacしか接続できない。すべてのMacが相互に直接接続される必要があるためだ。だからAppleはQSFPのような高速リンクに投資すべきだと思う
それに、すべてのMacを完全メッシュ接続する必要があるのかも疑問だ。ThunderboltはネットワークインターフェースのようにRDMA上で動作するのではないかと思う
Appleがなぜサーバークラスタ向けのRDMAのような機能を出しながら、リモート管理やラックマウントといった基本的な品質改善は無視しているのか疑問だ
社内でMシリーズのサーバー製品を使っていて、こうした機能はその副産物なのかもしれないと思う
Jeffの作業は本当に素晴らしい。ThunderboltベースのRDMAの話も興味深かった
何よりJeffの前向きなエネルギーと継続的な貢献に感謝したい
LinuxはRDMAをサポートしているが、Thunderboltではまだ不可能だ。これを実装するにはかなり多くの作業が必要そうだ
安価なStrix Haloボックス(128GB DDR5-8000、USB4×2)を2〜3台束ねて大きなモデルを動かせたらよいと思う
現在のThunderboltにはスイッチがないため、クラスタ規模が制限される
その代わりRoCE(RDMA over Converged Ethernet)が使えるのか気になる。RDMAはTCPより7〜10倍速いと聞いた
10G〜80GのThunderbolt Ethernetアダプタもあるが、レイテンシが問題かもしれない
PCIeスロットがあればInfinibandカードを挿すだけで済むが、結局はドライバが鍵だ
AppleがMLX5ドライバをiPadOSにまで含めていたのは驚きだ。関連ブログ参照
ibv_devicesに実際に表示されるのかはわからない入力(prefill)速度と出力(decode)速度を分けて測定したデータが気になる
Macハードウェアではこの2つの速度がかなり違うという話がExoの記事にあった
Exoチームにベンチマーク機能の追加を提案してみるつもりだ
Thunderbolt 5が思ったほど圧倒的ではない点が興味深かった
2.5Gbps Ethernetと比べて、TB5は約10%速い程度だった。M3 Studioは10Gbps Ethernetをサポートするが、テストはされていなかった
TB5はすべてのCPUが互いに直接接続される必要があるため、4台制限がある。一方、Ethernetスイッチを使えば、より多くのノードを接続できる
クラスタの各ノードは512GB RAMを持つ。DeepSeek V3.1モデルには700GB RAMが必要だ
1ノードから2ノードに増やしたときに推論速度が32%しか向上しなかったのが不思議だ。4ノードでも50%未満の向上だ
何らかのボトルネックがあるようだ
すべてのノードが相互接続される構造は、SGIのNUMALinkを思い出させる
SGIのスーパーコンピュータでは、各ノードが他のすべてのノードと2本のリンクで接続されていた。ケーブルは多いが、フレーミングや輻輳制御を考える必要がなかった
今日の高頻度取引システムがCPUコアとDIMM位置を考慮してプロセスを配置するのも同じ文脈だ
記事で見たいくつかの興味深いディテールが気に入った
Exoの謎の失踪、JeffがMac向けSMB Directを望んでいること、M3 Ultraの推論速度、そして2100ドルのFramework AIデスクトップなど
おかげで新たなrabbit holeを見つけた気分だ