18 ポイント 投稿者 GN⁺ 2025-09-09 | 3件のコメント | WhatsAppで共有
  • 小型のRaspberry Piボード4台を分散推論ノードとして束ね、Qwen3 30B MoEのA3B Q40量子化モデルを実行したセットアップ・ベンチマーク事例を紹介
  • ネットワークスイッチ経由でROOT 1台 + WORKER 3台(すべてRaspberry Pi 5 8GB)としてネットワークを構成
  • トークン生成速度は評価フェーズで14.33 tok/s、予測フェーズで13.04 tok/sと測定
  • モデルはQwen3 MoEアーキテクチャをベースとしており、48層・128エキスパートで構成
  • 低コストなハードウェアで高性能言語モデルを実行可能にし、Raspberry Piクラスターの可能性とコスト効率の高いAI研究を示す

プロジェクト概要

  • Distributed Llama v0.16.0を使って、4台のRaspberry Pi 5 8GBでQwen3 30B A3B Q40モデルを実行
    • 低コストなデバイスで大規模言語モデルを動かせるよう設計
    • TP-Link LS1008Gスイッチでネットワーク接続
  • 主な目標は、高性能コンピューティング資源がなくてもAIモデルを効率的に動かすこと
    • 4台のデバイス(ルート1台、ワーカー3台)に処理を分散
    • IPアドレス: ルート(10.0.0.2)、ワーカー(10.0.0.1、10.0.0.3、10.0.0.4)

ハードウェアおよびネットワーク設定

  • 構成: Raspberry Pi 5 8GBを4台で構成したクラスター
    • 各デバイスはTP-Link LS1008Gスイッチに接続
    • ルートノードと3つのワーカーノードがネットワーク経由で通信
  • ネットワーク初期化: すべてのワーカーノード(10.0.0.1:9999、10.0.0.3:9999、10.0.0.4:9999)への接続に成功
    • 非ブロッキングモードでネットワーク動作
    • データ転送: 評価時に送信12084kB、受信20085kB
  • CPU活用: Neon Dotprod FP16対応により演算を最適化

モデル詳細

  • モデル: Qwen3 30B A3B Q40
    • アーキテクチャ: Qwen3 MoE (Mixture of Experts)
    • 層数: 48
    • エキスパート数: 128、アクティブエキスパート8
    • 次元: Dim 2048、QDim 4096、KvDim 512、HiddenDim 6144
  • トークナイザー: 語彙サイズ151669で、モデル語彙サイズ151936とわずかな不一致あり
    • 一般語彙サイズ: 151643
    • 特殊語彙サイズ: 26
  • メモリ要件: 5513MB
    • 最大シーケンス長: 4096
    • NormEpsilon: 0.000001、RopeTheta: 10000000

ベンチマーク性能

  • 評価フェーズ
    • バッチ数: 32
    • トークン数: 19
    • トークン生成速度: 14.33 tok/s (69.80ms/tok)
  • 予測フェーズ
    • トークン数: 109
    • トークン生成速度: 13.04 tok/s (76.69ms/tok)
  • 予測詳細ログ:
    • 各予測ステップで約49〜70ms、同期時間14〜94msを要する
    • 送信データ636kB、受信データ1057kBで一定
    • 例: "Of"、"course"、"Poland" などのトークンを生成
    • スレッド数: 4
    • バッファの浮動小数点型: Q80
    • 最大シーケンス長: 4096

注意点・制約 (Notes & Caveats)

  • Tokenizer vocab sizeModel vocab sizeの不一致警告があるため、トークナイザーの整合性検証が必要
  • A3B Q40攻めた量子化にあたるため、精度・応答品質とのトレードオフを念頭に置く必要がある
  • Pi 5 8GB × 4構成はメモリ・演算の限界があるため、プロンプト長・同時実行性・ネットワーク品質による変動が大きい可能性がある

実務的な意味

  • 低コストAI実行の可能性を示すプロジェクト
  • 低コストSBCクラスター30B級MoEモデルを分散実行した再現事例として、オンプレミスの軽量推論・開発実験のハードルを下げる参考になる可能性がある
  • トークン単位のネットワーク・同期ログが含まれており、分散オーバーヘッド計測・チューニングするうえで有意義なデータを提供
  • 分散フレームワーク + 量子化モデルの組み合わせにより、エッジ/個人研究環境TCOに対する性能を引き上げられる可能性がある

3件のコメント

 
seohc 2025-09-10

nシリーズのミニPCも安いですが、16GBを4台で束ねると……考えてみたら、8845に32GBを積んだ価格になりそうですね(笑)

 
ndrgrd 2025-09-10

すごいですね。最近は低負荷なLLM運用に関する情報がどんどん増えている気がして、うれしいです。

 
developerjhp 2025-09-09

すごいですね..