- 小型のRaspberry Piボード4台を分散推論ノードとして束ね、Qwen3 30B MoEのA3B Q40量子化モデルを実行したセットアップ・ベンチマーク事例を紹介
- ネットワークスイッチ経由でROOT 1台 + WORKER 3台(すべてRaspberry Pi 5 8GB)としてネットワークを構成
- トークン生成速度は評価フェーズで14.33 tok/s、予測フェーズで13.04 tok/sと測定
- モデルはQwen3 MoEアーキテクチャをベースとしており、48層・128エキスパートで構成
- 低コストなハードウェアで高性能言語モデルを実行可能にし、Raspberry Piクラスターの可能性とコスト効率の高いAI研究を示す
プロジェクト概要
- Distributed Llama v0.16.0を使って、4台のRaspberry Pi 5 8GBでQwen3 30B A3B Q40モデルを実行
- 低コストなデバイスで大規模言語モデルを動かせるよう設計
- TP-Link LS1008Gスイッチでネットワーク接続
- 主な目標は、高性能コンピューティング資源がなくてもAIモデルを効率的に動かすこと
- 4台のデバイス(ルート1台、ワーカー3台)に処理を分散
- IPアドレス: ルート(10.0.0.2)、ワーカー(10.0.0.1、10.0.0.3、10.0.0.4)
ハードウェアおよびネットワーク設定
- 構成: Raspberry Pi 5 8GBを4台で構成したクラスター
- 各デバイスはTP-Link LS1008Gスイッチに接続
- ルートノードと3つのワーカーノードがネットワーク経由で通信
- ネットワーク初期化: すべてのワーカーノード(10.0.0.1:9999、10.0.0.3:9999、10.0.0.4:9999)への接続に成功
- 非ブロッキングモードでネットワーク動作
- データ転送: 評価時に送信12084kB、受信20085kB
- CPU活用: Neon Dotprod FP16対応により演算を最適化
モデル詳細
- モデル: Qwen3 30B A3B Q40
- アーキテクチャ: Qwen3 MoE (Mixture of Experts)
- 層数: 48
- エキスパート数: 128、アクティブエキスパート8
- 次元: Dim 2048、QDim 4096、KvDim 512、HiddenDim 6144
- トークナイザー: 語彙サイズ151669で、モデル語彙サイズ151936とわずかな不一致あり
- 一般語彙サイズ: 151643
- 特殊語彙サイズ: 26
- メモリ要件: 5513MB
- 最大シーケンス長: 4096
- NormEpsilon: 0.000001、RopeTheta: 10000000
ベンチマーク性能
- 評価フェーズ
- バッチ数: 32
- トークン数: 19
- トークン生成速度: 14.33 tok/s (69.80ms/tok)
- 予測フェーズ
- トークン数: 109
- トークン生成速度: 13.04 tok/s (76.69ms/tok)
- 予測詳細ログ:
- 各予測ステップで約49〜70ms、同期時間14〜94msを要する
- 送信データ636kB、受信データ1057kBで一定
- 例: "Of"、"course"、"Poland" などのトークンを生成
- スレッド数: 4
- バッファの浮動小数点型: Q80
- 最大シーケンス長: 4096
注意点・制約 (Notes & Caveats)
- Tokenizer vocab sizeとModel vocab sizeの不一致警告があるため、トークナイザーの整合性検証が必要
- A3B Q40は攻めた量子化にあたるため、精度・応答品質とのトレードオフを念頭に置く必要がある
- Pi 5 8GB × 4構成はメモリ・演算の限界があるため、プロンプト長・同時実行性・ネットワーク品質による変動が大きい可能性がある
実務的な意味
- 低コストAI実行の可能性を示すプロジェクト
- 低コストSBCクラスターで30B級MoEモデルを分散実行した再現事例として、オンプレミスの軽量推論・開発実験のハードルを下げる参考になる可能性がある
- トークン単位のネットワーク・同期ログが含まれており、分散オーバーヘッドを計測・チューニングするうえで有意義なデータを提供
- 分散フレームワーク + 量子化モデルの組み合わせにより、エッジ/個人研究環境でTCOに対する性能を引き上げられる可能性がある
3件のコメント
nシリーズのミニPCも安いですが、16GBを4台で束ねると……考えてみたら、8845に32GBを積んだ価格になりそうですね(笑)
すごいですね。最近は低負荷なLLM運用に関する情報がどんどん増えている気がして、うれしいです。
すごいですね..