- Raspberry Pi 5 で AMD、Intel、Nvidia GPU を動作させ、デスクトップPCと比較した実験では、性能低下が2〜5%程度にとどまるケースが多数確認された
- Jellyfinトランスコーディング、GravityMarkレンダリング、LLM/AI推論、マルチGPU構成 の4項目をテストし、効率性とコストパフォーマンスを測定
- 4基のNvidia RTX A5000 を接続した事例では、Intelサーバー比で2%以内の性能差 を示し、PCIeスイッチによるGPU間メモリ共有が重要な役割を果たした
- Raspberry Pi eGPUシステム の総コストは約 $350〜400、PCは$1500〜2000 で、消費電力もPiのほうが大幅に低い(アイドル時4〜5W vs 30W)
- 大型GPUを効率的に活用できる 低消費電力・低コストの代替プラットフォーム として、Raspberry Piの可能性を示した事例
実験概要
- Raspberry Pi 5の PCIe Gen 3 x1帯域幅(8 GT/s) という制約を踏まえつつも、GPU活用の可能性を検証
- 比較対象は 最新のデスクトップPC(PCIe Gen 5 x16、512 GT/s)
- テスト項目は メディアトランスコーディング(Jellyfin)、GPUレンダリング(GravityMark)、LLM/AI性能、マルチGPU構成
- Dolphin ICS の PCIe Gen 4外部スイッチおよび3スロットバックプレーン を用いて、2基のGPU同時動作 実験を実施
4基のGPUを接続したRaspberry Piの事例
- GitHubユーザー mpsparrow が 4基のNvidia RTX A5000 GPU を単一のPiに接続
- Llama 3 70Bモデル 実行時、Intelサーバー比で2%以内の性能差(11.83 vs 12 tokens/sec)
- PCIeスイッチ によりGPU間のメモリ共有が可能となり、Piの帯域幅制約を回避
- 単一GPU構成でも、一部の処理では デスクトップと同等またはそれ以上の性能 を確認
コストと効率の比較
- Raspberry Pi eGPU構成: 約 $350〜400、Intel PC構成: 約 $1500〜2000
- アイドル時消費電力: Pi 4〜5W、PC 30W
- GPUを除けば同条件で コスト効率・電力効率 ともにPiが優位
Jellyfinトランスコーディングベンチマーク
- Nvidia 4070 Ti 使用時、PCが生のスループット(2GB/s) では優位
- Piは PCIe 850MB/s、USB SSD 300MB/s 程度
- しかし H.264/H.265メディアストリーミング では、Piでも 1080p・4Kトランスコーディング を円滑に処理
- NVENCハードウェアエンコード をサポートし、2本同時トランスコーディング も安定
- AMD GPU ではトランスコーディングの安定性に一部問題が発生
GravityMarkレンダリングテスト
- AMD GPU を中心にテストし、PCがわずかに高速だが差はごく小さい
- RX 460 使用時、Piは PCより高い効率(性能/W) を記録
- PCIe Gen 3 帯域幅が同じ旧型GPUでは、Piが 相対的な優位性 を確保
AIおよびLLM性能の比較
- AMD Radeon AI Pro R9700(32GB VRAM) のテストでは 予想より低い性能 で、ドライバーまたはBAR設定の問題の可能性
- Nvidia RTX 3060(12GB) 使用時、Llama 2 13Bモデル ではPiが PCより高速
- 効率性の測定 では、Piが 電力あたりの処理量 でPCを上回った
- RTX 4090 テストでも、大型モデル(Qwen3 30B) 基準で 5%以内の性能差 にとどまり、効率性ではPiが優位な場合が多かった
- CUDAバックエンド と Vulkanバックエンド の両方がPiで正常に動作
デュアルGPU構成の実験
- Dolphin PCIeインターコネクトボード と MXH932 HBA を使用
- ACS無効化 によりGPU間の直接メモリアクセスが可能
- 異なるGPUモデル(4070、A4000)の組み合わせでは VRAMプーリング非対応 のため、性能向上は限定的
- 同一GPU構成 では、より大きなモデル(Qwen3 30Bなど)の実行が可能
- AMD RX 7900 XT + R9700 の組み合わせでは、ドライバー問題により一部モデルの実行に失敗
- Intel PC は全体として高速だが、Piも大型モデルで近い性能 を維持
結論
- 絶対性能と利便性 ではPCが優位
- しかし GPU中心のワークロード、低消費電力・低コスト環境 では Raspberry Piが実用的な代替手段 となる
- アイドル時20〜30W削減、Rockchip・QualcommベースのSBC はさらに高い効率とI/O帯域幅を提供
- 実験の目的は Piの限界とGPUコンピューティング構造の学習 であり、その過程で 小型システムの可能性 も確認された
1件のコメント
Hacker Newsの意見
ローカルでLLMを動かすなら、結局のところGPUが中核になる
なので、GPUの横に置ける最も安価なコンピュータは何かを考えている
私はBARのような問題を理解したり修正したりする能力がないので、適当なGPUを挿した安価なx86ボックスを組んで使っている
それでも、もっと効率的な方法があるのではないかという考えが頭から離れない
サイトはinferbench.com、ソースコードはGitHubリポジトリにある
GPUには最低でも128GB RAMが必要だと見ている
CPU性能は低くてもよいが、複数のPCIeレーンをサポートする必要があるため、AMD EPYCのような低スペックのサーバー向けCPUが適している
中規模LLMにはかなり向いている
マルチGPUの部分が意外だと言うのは理解できない
ほとんどのLLMフレームワーク(例: llama.cpp)はレイヤー単位でモデルを分割するので、逐次依存が生じてGPUを何枚使っても並列処理にならない
一部のGPUはプロンプト処理に、別のGPUはトークン生成により速いこともあり、RadeonとNVIDIAを混在させると時々効果がある
本当の性能向上はtensor parallelモードのようなバックエンドで可能になる
これはデータフロー方向にニューラルネットワークを分割する方式なので、GPU間接続(PCIe x16、NVlink、Infinity Fabricなど)が良好である必要がある
こうしたものがないと、GPU使用率が上下にばらついて見えることもある
複数の作業を並列に走らせられるようにLLMを分割する方法、たとえば「マネージャー」と「エンジニア」の役割を分けるようなエージェント構造は興味深い
マネージャーモデルがプロンプトを作り、下位モデルが並列に作業してから結果を返す
実際にはシーケンス長に応じてメガバイト単位まで増える
たとえばQwen3 30Bのhidden stateが5120なら、8ビット量子化時にはトークンあたり5120バイトになる
200トークンを超えるだけでMB単位になる
PCIe x1の帯域幅(約2GB/s)でも十分だが、レイテンシの方がより大きな問題かもしれない
誰かがこういう実験をしてくれて本当にうれしい
私も予備のノートPCにeGPUをつないで使いながら、「これってRaspberry Piでもできるのでは?」と思っていた
ゲーム性能も見てほしかった
ただしARMをサポートするAAAゲームを見つけるのは難しく、FEXでx86エミュレーションを強制するのは公平ではない
**constrained decoding(JSON schemaベース)**を使うと、CPU使用率が100%まで上がる
自分のvLLMインスタンスでも同じ現象を見た
PCIe 3.0は1レーンあたり約1GB/sで、10Gb Ethernet級の速度が出る
将来的にはGPUがホストシステムなしで独立動作する日が来るかもしれない
すでにRadeon Pro SSGのようにGPUにSSDを載せた例もあったし、
小型のRISC-VチップやRaspberry Pi級のコントローラだけでも十分かもしれない
関連記事: TechPowerUp
GPUがネットワークスイッチに直接接続され、400GbeやCXLベースの通信を行う構成も現実的だ
また、High Bandwidth Flashのような次世代フラッシュ技術がDRAMを置き換える可能性もある
関連記事: ServeTheHome, Tom’s Hardware
こうしたデータポイントを見ると、自分のメインPC構成を見直したくなる
20W以下で動く300ドルのミニPCで十分そうだ
Webブラウジング、動画視聴、軽いゲーム程度なら余裕で、
重い作業はリモートでワークステーションに接続すればよい
1 vCPU、4GB RAMだけでもWeb閲覧や趣味のプロジェクトには十分だ
ハードウェアメーカーは「プロには高性能ノートPCが必要だ」と誇大広告してきたように思う
TDP差が性能差を大きくしている
高性能な機材は防音された空間に置いておけるので快適だ
PCI/CPU構造そのものがなぜ必要なのか疑問だ
AppleとNVIDIAのようにCPUとMPPを同じパッケージに入れるのが正しい方向に思える
AIやHPCのような大規模計算では大きな差がないかもしれない