4台のRaspberry Pi 5でQwen3 30B A3Bを毎秒13トークンで実行

(github.com/b4rtaz)

18 ポイント投稿者 GN⁺ 2025-09-09 | 3件のコメント | WhatsAppで共有

小型のRaspberry Piボード4台を分散推論ノードとして束ね、Qwen3 30B MoEのA3B Q40量子化モデルを実行したセットアップ・ベンチマーク事例を紹介
ネットワークスイッチ経由でROOT 1台 + WORKER 3台（すべてRaspberry Pi 5 8GB）としてネットワークを構成
トークン生成速度は評価フェーズで14.33 tok/s、予測フェーズで13.04 tok/sと測定
モデルはQwen3 MoEアーキテクチャをベースとしており、48層・128エキスパートで構成
低コストなハードウェアで高性能言語モデルを実行可能にし、Raspberry Piクラスターの可能性とコスト効率の高いAI研究を示す

プロジェクト概要

Distributed Llama v0.16.0を使って、4台のRaspberry Pi 5 8GBでQwen3 30B A3B Q40モデルを実行
- 低コストなデバイスで大規模言語モデルを動かせるよう設計
- TP-Link LS1008Gスイッチでネットワーク接続
主な目標は、高性能コンピューティング資源がなくてもAIモデルを効率的に動かすこと
- 4台のデバイス（ルート1台、ワーカー3台）に処理を分散
- IPアドレス: ルート（10.0.0.2）、ワーカー（10.0.0.1、10.0.0.3、10.0.0.4）

ハードウェアおよびネットワーク設定

構成: Raspberry Pi 5 8GBを4台で構成したクラスター
- 各デバイスはTP-Link LS1008Gスイッチに接続
- ルートノードと3つのワーカーノードがネットワーク経由で通信
ネットワーク初期化: すべてのワーカーノード（10.0.0.1:9999、10.0.0.3:9999、10.0.0.4:9999）への接続に成功
- 非ブロッキングモードでネットワーク動作
- データ転送: 評価時に送信12084kB、受信20085kB
CPU活用: Neon Dotprod FP16対応により演算を最適化

モデル詳細

モデル: Qwen3 30B A3B Q40
- アーキテクチャ: Qwen3 MoE (Mixture of Experts)
- 層数: 48
- エキスパート数: 128、アクティブエキスパート8
- 次元: Dim 2048、QDim 4096、KvDim 512、HiddenDim 6144
トークナイザー: 語彙サイズ151669で、モデル語彙サイズ151936とわずかな不一致あり
- 一般語彙サイズ: 151643
- 特殊語彙サイズ: 26
メモリ要件: 5513MB
- 最大シーケンス長: 4096
- NormEpsilon: 0.000001、RopeTheta: 10000000

ベンチマーク性能

評価フェーズ
- バッチ数: 32
- トークン数: 19
- トークン生成速度: 14.33 tok/s (69.80ms/tok)
予測フェーズ
- トークン数: 109
- トークン生成速度: 13.04 tok/s (76.69ms/tok)
予測詳細ログ:
- 各予測ステップで約49〜70ms、同期時間14〜94msを要する
- 送信データ636kB、受信データ1057kBで一定
- 例: "Of"、"course"、"Poland" などのトークンを生成
- スレッド数: 4
- バッファの浮動小数点型: Q80
- 最大シーケンス長: 4096

注意点・制約 (Notes & Caveats)

Tokenizer vocab sizeとModel vocab sizeの不一致警告があるため、トークナイザーの整合性検証が必要
A3B Q40は攻めた量子化にあたるため、精度・応答品質とのトレードオフを念頭に置く必要がある
Pi 5 8GB × 4構成はメモリ・演算の限界があるため、プロンプト長・同時実行性・ネットワーク品質による変動が大きい可能性がある

実務的な意味

低コストAI実行の可能性を示すプロジェクト
低コストSBCクラスターで30B級MoEモデルを分散実行した再現事例として、オンプレミスの軽量推論・開発実験のハードルを下げる参考になる可能性がある
トークン単位のネットワーク・同期ログが含まれており、分散オーバーヘッドを計測・チューニングするうえで有意義なデータを提供
分散フレームワーク + 量子化モデルの組み合わせにより、エッジ/個人研究環境でTCOに対する性能を引き上げられる可能性がある

3件のコメント

seohc 2025-09-10

nシリーズのミニPCも安いですが、16GBを4台で束ねると……考えてみたら、8845に32GBを積んだ価格になりそうですね（笑）

ndrgrd 2025-09-10

すごいですね。最近は低負荷なLLM運用に関する情報がどんどん増えている気がして、うれしいです。

developerjhp 2025-09-09

すごいですね..