6 ポイント 投稿者 GN⁺ 2025-12-19 | 2件のコメント | WhatsAppで共有
  • macOS 26.2で新たに追加された**Thunderbolt 5ベースのRDMA(Remote Direct Memory Access)**機能を使い、複数のMac Studioを1つの巨大なメモリプールのように動作させる実験
  • Exo 1.0オープンソースクラスタリングツールを使用して1.5TBの統合メモリを構成し、大規模AIモデルの実行速度を向上
  • M3 Ultra Mac Studioは単一ノードでも高い演算性能と効率を示し、RDMA適用時にはメモリアクセス遅延が300μsから50μs未満に減少
  • Thunderbolt 5のケーブル複雑性、スイッチ不在、macOSの管理上の制約など、クラスタ運用上の限界も存在
  • RDMAとExoの組み合わせはMacベースのAI・HPC環境の拡張可能性を示す一方、安定性と拡張性にはなお改善が必要

Thunderbolt 5上のRDMA実験の概要

  • Appleが提供したMac Studioクラスタを使って、macOS 26.2のRDMA over Thunderbolt機能をテスト
    • RDMAにより複数のMacが1つの大容量RAMのように動作し、大規模AIモデル処理の速度を高める
  • テストにはExo 1.0オープンソースAIクラスタリングツールが使われた
  • 合計1.5TBの統合メモリを構成したMac Studio 4台の価格は約4万ドル

AppleのHPCの歴史とM3 Ultraの位置づけ

  • AppleのHPC関連の取り組みは、過去のXserveとXgridの時代以降ほとんどなかった
  • M3 Ultra Mac StudioはローカルAIモデル実行に適した性能を示し、RDMA対応によってクラスタリング時の遅延が300μsから50μs未満に減少
  • 250W以下の電力で静かに動作し、小規模な科学計算やクリエイティブ作業にも適している

ハードウェア構成とネットワーキング

  • 下段の2台は512GB RAM / 32コアCPU、上段の2台は256GB RAM構成
  • Thunderbolt 5を通じて実効帯域幅50〜60Gbpsを提供するが、Thunderboltスイッチが存在しないため各Macを直接相互接続する必要がある
  • QSFPポートを使うNvidia DGX Sparkと比べると、ネットワークの安定性は劣る
  • Thunderboltケーブル固定用のThunderLok-Aはあるが、Mac Studio本体の改造が必要なため適用しなかった

M3 Ultra Mac Studioの性能ベンチマーク

  • GeekbenchではDell Pro Max(GB10)およびAMD AI Max+ 395よりシングル・マルチコアともに優れる
  • FP64 HPLベンチマークで1 Tflopを突破し、Nvidia GB10の約2倍の性能
  • 大規模AIモデル推論でも優秀で、同一電力あたりの効率が高い
  • 単一のM3 UltraがDell Pro Maxの2ノードクラスタより性能・効率の両面で上回った

クラスタ管理とmacOSの制約

  • macOSはSSHでシステムアップグレード不可で、GUI操作が必要
  • Screen Sharingを使ってリモート管理を実施
  • Linuxと比べてクラスタ管理の自動化が難しく、MDMツールの不在による不便さもある

HPLおよびLlama.cppテスト

  • HPLは単一ノードで1.3 Tflops、4ノード構成では3.7 Tflopsとなり約3倍向上
  • ThunderboltベースのTCP接続ではシステムクラッシュが発生し、RDMA未使用時は不安定
  • Llama.cppテストではThunderbolt 5が2.5Gbps Ethernetより低遅延を示した

RDMA有効化とExo 1.0テスト

  • RDMA有効化手順: 復旧モードに入る → rdma_ctl enableコマンドを実行 → 再起動
  • Exo 1.0はRDMAをサポートする唯一のツールで、**600GB超のモデル(Kimi K2 Thinkingなど)**を複数のMacに分散して実行可能
  • Llama.cppはRPC方式でモデルレイヤーを分散するが非効率
  • Exoはノード数の増加に応じて性能が向上し、Qwen3 235Bモデルで毎秒32トークン処理を達成
  • DeepSeek V3.1と**Kimi K2 Thinking(1兆パラメータ)**モデルの実行にも成功

安定性の問題とオープンソース上の課題

  • テストはプレリリースソフトウェアをベースに行われたため、不安定さがある
  • RDMA動作時の性能は優秀だが、失敗するとクラスタ全体の再起動が必要
  • Exo開発チームはしばらく活動を停止した後に復帰し、Apache 2.0ライセンスで公開されている
  • Appleとの協業に伴う非公開の開発プロセスへの懸念にも言及

今後の課題と未解決の疑問

  • M5 Ultraの発売有無と、機械学習性能向上の可能性
  • Mac ProのPCIe拡張性復活によるクラスタリング改善の必要性
  • SMB Direct対応時の高速ファイル共有の可能性
  • Llama.cppなど他ソフトウェアでのRDMA対応拡大への期待

結論

  • RDMAとExoの組み合わせはMac StudioのAI・HPC活用可能性を大きく広げる
  • しかしThunderbolt 5の構造的限界とmacOS管理上の制約は依然としてボトルネック
  • QSFPポート導入など、ネットワーク拡張性の改善が必要
  • AIブームが過ぎても、Mac Studioは静かで強力なワークステーションとして価値を保つ

2件のコメント

 
kaydash 2025-12-21

impalaを思い出しますね

 
GN⁺ 2025-12-19
Hacker Newsの意見
  • M5 Max/Ultraに期待する点をまとめていた
    Thunderboltの代わりに、DGX級の**QSFPリンク(200Gb/s以上)**に対応してほしい。RDMAの構成は魅力的だが、この程度の速度がなければ経済性が低い
    Neural acceleratorでプロンプトのprefill時間を短縮したい。RTX 6000級でなくても、3090/4090程度で十分
    Mac Studioの最上位構成には1TBのユニファイドメモリを期待している。複数台の機材を使うよりメモリを増やすほうが効率的だと思う
    帯域幅も+1TB/sまで上げてほしい。ここ3世代ほど800GB/sにとどまっている
    オーバークロック機能も可能になってほしい。Mac StudioはノートPCではないので、600W以上消費しても問題ないと思う。現状は約250Wに制限されている
    また、このRDMA構成では最大4台のMacしか接続できない。すべてのMacが相互に直接接続される必要があるためだ。だからAppleはQSFPのような高速リンクに投資すべきだと思う

    • 1TBメモリだなんて、我々のような一般ユーザーが買えるRAMも少しは残しておいてくれないか? 「AIよ、人類を幸せにしてくれ!」という感じだ
    • M4はすでにチャネル当たり必要な速度を達成しており、M5はそれ以上だ。Ultra版が出るなら1TB/sの帯域幅は確実に可能だろう。MaxはUltraの半分なので、そこまではいかないはずだ
    • Mac Studioには650W級の発熱を継続的に処理できる熱設計がない。このレベルはMac Proの設計でこそ可能だろう
    • M3 Ultra Mac Studioの前面USB-CポートもThunderbolt 5なので、合計6ポートある。公式スペックを見ると、なぜ4台制限が必要なのか気になる
    • Apple Neural EngineはすでにINT8、FP16演算をサポートしている。ただしAIフレームワーク側がこれを十分に活用できていない
      それに、すべてのMacを完全メッシュ接続する必要があるのかも疑問だ。ThunderboltはネットワークインターフェースのようにRDMA上で動作するのではないかと思う
  • Appleがなぜサーバークラスタ向けのRDMAのような機能を出しながら、リモート管理やラックマウントといった基本的な品質改善は無視しているのか疑問だ
    社内でMシリーズのサーバー製品を使っていて、こうした機能はその副産物なのかもしれないと思う

    • おそらくAppleは本当にサーバー級製品を準備していて、サードパーティー製ソフトウェアが事前に対応できるようRDMAを先行公開したのかもしれない
    • Mac StudioはLLM推論向けとして独自の立ち位置にある。RDMAは一般的なサーバー向けではなく、4台のStudioを束ねてLLM推論クラスタとして使うための機能だと思う
    • 以前、AppleがPrivate Compute機能のためにM2 Mac Proをラックに積んで使っていたという話を聞いた
    • Appleが自前のデータセンターを運用しているのか気になる。大半はGCPにアウトソーシングしているのだと思っていた
    • 前から気になっていた。なぜ開発用ツーリングがこんなに貧弱なのか、Apple社内ではどんな環境を使っているのか。ThunderboltケーブルでMac Miniをつなぐのは少しもどかしい
  • Jeffの作業は本当に素晴らしい。ThunderboltベースのRDMAの話も興味深かった
    何よりJeffの前向きなエネルギーと継続的な貢献に感謝したい

  • LinuxはRDMAをサポートしているが、Thunderboltではまだ不可能だ。これを実装するにはかなり多くの作業が必要そうだ
    安価なStrix Haloボックス(128GB DDR5-8000、USB4×2)を2〜3台束ねて大きなモデルを動かせたらよいと思う

  • 現在のThunderboltにはスイッチがないため、クラスタ規模が制限される
    その代わりRoCE(RDMA over Converged Ethernet)が使えるのか気になる。RDMAはTCPより7〜10倍速いと聞いた
    10G〜80GのThunderbolt Ethernetアダプタもあるが、レイテンシが問題かもしれない
    PCIeスロットがあればInfinibandカードを挿すだけで済むが、結局はドライバが鍵だ

    • ThunderboltをPCIeに変換して一般的なNICを使うことも可能だ。Atto Thunderlinkも実質的にはBroadcom NICを包んだケースだ
      AppleがMLX5ドライバをiPadOSにまで含めていたのは驚きだ。関連ブログ参照
    • macOSにはMellanox ConnectXカード向けドライバが含まれているが、ibv_devicesに実際に表示されるのかはわからない
  • 入力(prefill)速度と出力(decode)速度を分けて測定したデータが気になる
    Macハードウェアではこの2つの速度がかなり違うという話がExoの記事にあった

    • 関連データはこのGitHub Issueに一部ある。
      Exoチームにベンチマーク機能の追加を提案してみるつもりだ
  • Thunderbolt 5が思ったほど圧倒的ではない点が興味深かった
    2.5Gbps Ethernetと比べて、TB5は約10%速い程度だった。M3 Studioは10Gbps Ethernetをサポートするが、テストはされていなかった
    TB5はすべてのCPUが互いに直接接続される必要があるため、4台制限がある。一方、Ethernetスイッチを使えば、より多くのノードを接続できる

    • この動画では10Gbps Ethernetでテストしている
    • 過去のllama RPCの経験では、10G Ethernetによる速度向上はわずかだった。レイテンシのほうが重要だが、それにも限界がある
    • llamaはまだ最適化が不十分でスケーラビリティが低かった。RDMAはEthernetよりオーバーヘッドが低い
  • クラスタの各ノードは512GB RAMを持つ。DeepSeek V3.1モデルには700GB RAMが必要だ
    1ノードから2ノードに増やしたときに推論速度が32%しか向上しなかったのが不思議だ。4ノードでも50%未満の向上だ
    何らかのボトルネックがあるようだ

    • ネットワーク帯域幅が80Gbpsなので、それがボトルネックだ。Infinibandはその10倍速い
    • モデルの重み(weights)は読み取り専用なので、SSDにメモリマップしてもよい。本当の制約はactivationメモリだ。MoE構造が役立つかもしれない
    • TB5 RDMAはシステムメモリへの直接アクセスよりはるかに遅い
  • すべてのノードが相互接続される構造は、SGIのNUMALinkを思い出させる
    SGIのスーパーコンピュータでは、各ノードが他のすべてのノードと2本のリンクで接続されていた。ケーブルは多いが、フレーミングや輻輳制御を考える必要がなかった

    • SGIハードウェアはccNUMA(cache-coherent NUMA)を実装していた。IRIX OSはジョブとメモリを物理的に近い場所へ移してレイテンシを下げていた
      今日の高頻度取引システムがCPUコアとDIMM位置を考慮してプロセスを配置するのも同じ文脈だ
    • NVL72ラックもGPU間に数十本のリンクを張ることで似た構造を持っている
  • 記事で見たいくつかの興味深いディテールが気に入った
    Exoの謎の失踪、JeffがMac向けSMB Directを望んでいること、M3 Ultraの推論速度、そして2100ドルのFramework AIデスクトップなど
    おかげで新たなrabbit holeを見つけた気分だ