11 ポイント 投稿者 GN⁺ 2025-12-13 | 4件のコメント | WhatsAppで共有
  • macOS Tahoe 26.2Thunderbolt 5ベースのRDMA 機能が新たに追加され、MLXを活用した 分散AI推論 などの低レイテンシ通信が可能に
  • これは 「Macを高速分散コンピューティングノードとして扱えるようにすること」 を意味し、macOSが単なるデスクトップOSを超えて、ローカルAI・HPC実験プラットフォーム へと拡張可能になった

RDMAとは何か

  • RDMA(Remote Direct Memory Access) は、あるコンピューターが別のコンピューターのメモリに CPUの介入なしで直接アクセス する通信方式
  • ネットワークスタック、カーネルコピー、コンテキストスイッチを迂回し、レイテンシを極限まで下げ、スループットを大幅に向上 させる
  • 主にInfiniBandやRoCEのようなデータセンターネットワークで使われてきた
  • 高性能コンピューティング(HPC)、分散ストレージ、大規模AI学習・推論で標準的な技術として定着している
  • 核心は、「ネットワーク通信でありながら、まるで同じメモリを使っているかのように高速に動作する」 という点

Thunderbolt上のRDMAの意味

  • macOS 26.2では、Thunderbolt 5で接続されたMac同士でRDMA通信をサポート
  • 従来はRDMAがサーバー級のネットワーク機器に限られていたのに対し、今では ケーブル1本で接続したローカルMacクラスターでも可能 になった
  • Thunderboltの高帯域幅と非常に低いレイテンシを そのままRDMAモデルで活用 できる
  • つまり、「机の上の複数のMacをデータセンターのように束ねる通路」 が開かれたということ

なぜAIワークロードと相性がよいのか

  • 分散AI推論や学習では、ノード間のテンソル交換 がボトルネックになりやすい
  • RDMAはこの過程でCPUを消費せず、GPU ↔ GPUに近い通信パターン を提供する
  • リリースノートで言及された MLXベースの分散AI推論 は、このような低レイテンシ・高帯域通信を前提に設計された構造
  • モデルを複数のMacに分散配置し、単一マシンのように動作する推論クラスターを構成 できる可能性が広がる
  • 小規模チームや研究環境では、「サーバーなしでMacによるAIクラスターを構築する」 ことが現実的な選択肢になる

実際に可能になる利用シナリオ

  • 複数のMac Studio / Mac ProをThunderboltで接続し、ローカルAI推論ファームを構築
  • 大規模モデルを単一GPUに載せにくい場合、モデル分割推論 の実験が可能
  • ローカル分散シミュレーション、高速データパイプライン、実験的な分散システム研究
  • データセンター移行前段階における プロトタイプ・PoC環境の構築コストを大幅削減

4件のコメント

 
bus710 2025-12-14

Thunderboltネットワーキングは本当に便利ですよね
デイジーチェーンにできるので、ハブも必要ありません

 
shakespeares 2025-12-13

これでMacデバイスをつないで推論ファームを構築し、自宅でサービスを提供する人もかなり増えそうですね。

 
xguru 2025-12-13

Appleの公式リリースノートでは「RDMA over Thunderbolt」が可能になったという1行しか書かれていないため、GN+で補足説明を書いたものです。

 
GN⁺ 2025-12-13
Hacker Newsの反応
  • 私はMLXチームのTwitterをフォローしている。彼らはしばしば、512GBを超えるRAMが必要なモデルを動かすために、2台以上のMacを接続する事例を共有している
    例えば、Kimi K2 Thinking (1Tパラメータ)DeepSeek R1 (671B) がある。後者には 設定ガイドのGist も付いている

    • これらの投稿はパイプライン並列化を使った例だ。N台のマシンがあるとき、各マシンにL/N個のレイヤーを割り当てる方式だ。速度向上はないが、単一マシンに収まらない大きなモデルを動かせるようになる
      今後のTahoe 26.2リリースでは、テンソル並列化が可能になる予定だ。各レイヤーを複数マシンにシャーディングすることで、N台ならほぼN倍の速度を出せる。ただし、通信レイテンシが主要な課題だ
    • 先週、RDMAベースのテンソル並列テストを実施した。テストリンク。高速同期の回避策にも触れられている
    • 専門家でない人にとっては、この方式があまり魅力的に見えないことを願う。並列ワークロードやコンテキスト処理では性能があまりスケールしない
      その代わり、ローカルでLLMを試したい個人には良いが、資金力のある企業がGPUの代わりにこれを大量購入する理由はなさそうだ
    • 最も驚くべきなのは消費電力だ。2台合わせて約50Wだなんて、見間違いではないかと思う
  • 5万ドルの予算で推論用ハードウェアを比較してみた

    • Apple M3 Ultraクラスター(5万ドル): 容量(3TB)を最大化。3T+パラメータモデル(Kimi K2など)を動かせる唯一の選択肢だが、速度は低い(約15 t/s)
    • NVIDIA RTX 6000ワークステーション(5万ドル): スループット(>80 t/s)を最大化。学習にも推論にも優れるが、VRAMが384GBに制限されるため、400B未満のモデルしか扱えない
    • 同じ容量(3TB)と100 t/s超のスループットの両方を得るには、約27万ドルのNVIDIA GH200クラスターが必要になる。Appleクラスターは、その容量の87%を18%のコストで提供する
    • もっと安く済ませることもできる。私は2,000ドルの**デュアルソケットXeonワークステーション(768GB RAM)**でDeepSeek-R1を毎秒1〜2トークンで動かしている
    • 5万ドルのNVIDIAクラスター計算が気になる。RTX 6000がだいたい8,000ドルなら、5台で4万ドル、容量は約0.5TBになる。それでも推論用途ではMacが依然として効率的で、M5 Ultraはさらに良いコストパフォーマンスを示しそうだ
    • 同じ予算でFrameworkデスクトップボードを25枚(各128GB VRAM、Strix Halo搭載)買うこともできる。合計3TB VRAMだが、クラスタリングはかなり難しそうだ
    • まだ実装されていない並列高速化機能を考慮すると、オンプレミス推論環境ではかなり悪くない取引に見える
    • AppleはLPDDR5Xを使ってエネルギー効率とコストを下げている一方、NVIDIAはGDDR/HBMで性能を優先している
  • 最近のRAM市場の混乱の中でも、Appleの安定したサプライチェーンのおかげで、Appleコンピューティングが中規模推論クラスター構築のコスパの良い選択肢として定着したら、本当に皮肉だと思う

    • 商用ユーザーが高性能なMacを全部買い占めたら少し困りそうだ
    • すでに一部の用途ではそうなっている
  • 複数のMac Studioをクラスターとして束ねるという話だが、物理面・管理面の制約が気になる

    1. 電源ボタンの位置が微妙で、ラックマウント時に不便
    2. Thunderboltは周辺機器用としては良いが、常時接続のインターコネクトとしてはポートの耐久性が心配
    3. ケーブル品質が重要だ。TB4/TB5は高価なケーブルでないと問題が多かった
    4. macOSのリモート管理はLinuxより非効率だ。たとえば macOS 26.1 → 26.2 のアップグレードをGUIなしで行うのは難しい。sudo softwareupdate -i -a ではマイナーアップデートしかできない
    • #2については、OWCドックにケーブル固定用のネジ穴がある。OWC Thunderbolt DockClingOnアダプタ でポートへの負荷を減らせる
    • 電源ボタンの問題は RackMac Studioエンクロージャ で解決できる。ボタンを機械的に延長してくれる
    • Thunderboltをサーバーインターコネクトとして使うのは見た目としてはいまひとつだが、ラックに固定された状態なら、むしろ物理的ストレスは少ない
    • MDMソリューションを使えば、ソフトウェアアップデートだけでなく、LOM(リモート電源管理)まで可能だ。オープンソースのMDMも存在する
    • まだMac Proのラックマウント版も販売されているが、M3 Ultraでは更新されておらず、まもなく終了しそうだ
  • Appleが独自にMシリーズベースのクラウドを構築し、MetalをAI向けに強化し、プライバシー重視のセルフホスティングモデルを提供してくれたらいいのにと思う。機密データの多い業界で大きな成功を収められそうだ

    • すでに似た概念の Private Cloud Compute は存在するが、Appleモデルを使うiUser専用だ
    • データセンターでは、GPUごとの大容量メモリよりも、高速インターコネクトによるシャーディングのほうが効率的だ。計算性能の面では依然としてNVIDIAやAMDのGPUが優位だ
  • AI以外の一般的な分散ワークロードにもこの機能を使えるのか気になる

    • HPLとmpirunで試してみたが、まだRDMAはサポートされておらず、Ring方式しか使えない。やや粗削りだが動作はする
      参考: MLX分散利用ガイド
  • 関連記事: Engadget - macOS Tahoe 26.2でMacクラスターをAIスーパーコンピュータにできる

  • George Hotzがtinygradを使ってUSB4経由でMac上でNVIDIA GPUを動作させた
    tinygradのツイート

  • RDMAが何なのかよく分からないが、複数のMacをつないで推論を並列実行できるという意味か? だとしたら本当にすごい機能だ

    • すでに1年前から複数のMacで推論は可能だったが、今でははるかに高速に動作する