大型GPUに大型PCは必要ない

(jeffgeerling.com)

9 ポイント投稿者 GN⁺ 2025-12-21 | 1件のコメント | WhatsAppで共有

Raspberry Pi 5 で AMD、Intel、Nvidia GPU を動作させ、デスクトップPCと比較した実験では、性能低下が2〜5%程度にとどまるケースが多数確認された
Jellyfinトランスコーディング、GravityMarkレンダリング、LLM/AI推論、マルチGPU構成 の4項目をテストし、効率性とコストパフォーマンスを測定
4基のNvidia RTX A5000 を接続した事例では、Intelサーバー比で2%以内の性能差 を示し、PCIeスイッチによるGPU間メモリ共有が重要な役割を果たした
Raspberry Pi eGPUシステム の総コストは約 $350〜400、PCは$1500〜2000 で、消費電力もPiのほうが大幅に低い（アイドル時4〜5W vs 30W）
大型GPUを効率的に活用できる 低消費電力・低コストの代替プラットフォーム として、Raspberry Piの可能性を示した事例

実験概要

Raspberry Pi 5の PCIe Gen 3 x1帯域幅（8 GT/s） という制約を踏まえつつも、GPU活用の可能性を検証
- 比較対象は 最新のデスクトップPC（PCIe Gen 5 x16、512 GT/s）
テスト項目は メディアトランスコーディング（Jellyfin）、GPUレンダリング（GravityMark）、LLM/AI性能、マルチGPU構成
Dolphin ICS の PCIe Gen 4外部スイッチおよび3スロットバックプレーン を用いて、2基のGPU同時動作 実験を実施

4基のGPUを接続したRaspberry Piの事例

GitHubユーザー mpsparrow が 4基のNvidia RTX A5000 GPU を単一のPiに接続
- Llama 3 70Bモデル 実行時、Intelサーバー比で2%以内の性能差（11.83 vs 12 tokens/sec）
PCIeスイッチ によりGPU間のメモリ共有が可能となり、Piの帯域幅制約を回避
単一GPU構成でも、一部の処理では デスクトップと同等またはそれ以上の性能 を確認

コストと効率の比較

Raspberry Pi eGPU構成: 約 $350〜400、Intel PC構成: 約 $1500〜2000
アイドル時消費電力: Pi 4〜5W、PC 30W
GPUを除けば同条件で コスト効率・電力効率 ともにPiが優位

Jellyfinトランスコーディングベンチマーク

Nvidia 4070 Ti 使用時、PCが生のスループット（2GB/s） では優位
- Piは PCIe 850MB/s、USB SSD 300MB/s 程度
しかし H.264/H.265メディアストリーミング では、Piでも 1080p・4Kトランスコーディング を円滑に処理
- NVENCハードウェアエンコード をサポートし、2本同時トランスコーディング も安定
AMD GPU ではトランスコーディングの安定性に一部問題が発生

GravityMarkレンダリングテスト

AMD GPU を中心にテストし、PCがわずかに高速だが差はごく小さい
RX 460 使用時、Piは PCより高い効率（性能/W） を記録
PCIe Gen 3 帯域幅が同じ旧型GPUでは、Piが 相対的な優位性 を確保

AIおよびLLM性能の比較

AMD Radeon AI Pro R9700（32GB VRAM） のテストでは 予想より低い性能 で、ドライバーまたはBAR設定の問題の可能性
Nvidia RTX 3060（12GB） 使用時、Llama 2 13Bモデル ではPiが PCより高速
効率性の測定 では、Piが 電力あたりの処理量 でPCを上回った
RTX 4090 テストでも、大型モデル（Qwen3 30B） 基準で 5%以内の性能差 にとどまり、効率性ではPiが優位な場合が多かった
CUDAバックエンド と Vulkanバックエンド の両方がPiで正常に動作

デュアルGPU構成の実験

Dolphin PCIeインターコネクトボード と MXH932 HBA を使用
ACS無効化 によりGPU間の直接メモリアクセスが可能
異なるGPUモデル（4070、A4000）の組み合わせでは VRAMプーリング非対応 のため、性能向上は限定的
同一GPU構成 では、より大きなモデル（Qwen3 30Bなど）の実行が可能
AMD RX 7900 XT + R9700 の組み合わせでは、ドライバー問題により一部モデルの実行に失敗
Intel PC は全体として高速だが、Piも大型モデルで近い性能 を維持

結論

絶対性能と利便性 ではPCが優位
しかし GPU中心のワークロード、低消費電力・低コスト環境 では Raspberry Piが実用的な代替手段 となる
アイドル時20〜30W削減、Rockchip・QualcommベースのSBC はさらに高い効率とI/O帯域幅を提供
実験の目的は Piの限界とGPUコンピューティング構造の学習 であり、その過程で 小型システムの可能性 も確認された

1件のコメント

GN⁺ 2025-12-21

Hacker Newsの意見

ローカルでLLMを動かすなら、結局のところGPUが中核になる
なので、GPUの横に置ける最も安価なコンピュータは何かを考えている
私はBARのような問題を理解したり修正したりする能力がないので、適当なGPUを挿した安価なx86ボックスを組んで使っている
それでも、もっと効率的な方法があるのではないかという考えが頭から離れない
- 私はローカルLLM向けの最適なハードウェア構成を集めるクラウドソーシングサイトを運営している
  サイトはinferbench.com、ソースコードはGitHubリポジトリにある
- まだ単一のPCIeデバイスで意味のある性能を出すのは難しい
  GPUには最低でも128GB RAMが必要だと見ている
  CPU性能は低くてもよいが、複数のPCIeレーンをサポートする必要があるため、AMD EPYCのような低スペックのサーバー向けCPUが適している
- M4 MaxやM3 UltraのようなAppleシリコンを使うことは考えなかったのか？
  中規模LLMにはかなり向いている
- 君が言っているようなシステムは、実質的にDGX Sparkがその役割を果たしている
マルチGPUの部分が意外だと言うのは理解できない
ほとんどのLLMフレームワーク（例: llama.cpp）はレイヤー単位でモデルを分割するので、逐次依存が生じてGPUを何枚使っても並列処理にならない
一部のGPUはプロンプト処理に、別のGPUはトークン生成により速いこともあり、RadeonとNVIDIAを混在させると時々効果がある
本当の性能向上はtensor parallelモードのようなバックエンドで可能になる
これはデータフロー方向にニューラルネットワークを分割する方式なので、GPU間接続（PCIe x16、NVlink、Infinity Fabricなど）が良好である必要がある
こうしたものがないと、GPU使用率が上下にばらついて見えることもある
複数の作業を並列に走らせられるようにLLMを分割する方法、たとえば「マネージャー」と「エンジニア」の役割を分けるようなエージェント構造は興味深い
- その通りで、それがまさにエージェントシステムの概念だ
  マネージャーモデルがプロンプトを作り、下位モデルが並列に作業してから結果を返す
- レイヤー間転送サイズがキロバイト単位という話は誇張だ
  実際にはシーケンス長に応じてメガバイト単位まで増える
  たとえばQwen3 30Bのhidden stateが5120なら、8ビット量子化時にはトークンあたり5120バイトになる
  200トークンを超えるだけでMB単位になる
  PCIe x1の帯域幅（約2GB/s）でも十分だが、レイテンシの方がより大きな問題かもしれない
誰かがこういう実験をしてくれて本当にうれしい
私も予備のノートPCにeGPUをつないで使いながら、「これってRaspberry Piでもできるのでは？」と思っていた
ゲーム性能も見てほしかった
ただしARMをサポートするAAAゲームを見つけるのは難しく、FEXでx86エミュレーションを強制するのは公平ではない
- CPUボトルネックのないゲームを見つけるのが鍵になりそうだ
**constrained decoding（JSON schemaベース）**を使うと、CPU使用率が100%まで上がる
自分のvLLMインスタンスでも同じ現象を見た
PCIe 3.0は1レーンあたり約1GB/sで、10Gb Ethernet級の速度が出る
将来的にはGPUがホストシステムなしで独立動作する日が来るかもしれない
すでにRadeon Pro SSGのようにGPUにSSDを載せた例もあったし、
小型のRISC-VチップやRaspberry Pi級のコントローラだけでも十分かもしれない
関連記事: TechPowerUp
GPUがネットワークスイッチに直接接続され、400GbeやCXLベースの通信を行う構成も現実的だ
また、High Bandwidth Flashのような次世代フラッシュ技術がDRAMを置き換える可能性もある
関連記事: ServeTheHome, Tom’s Hardware
こうしたデータポイントを見ると、自分のメインPC構成を見直したくなる
20W以下で動く300ドルのミニPCで十分そうだ
Webブラウジング、動画視聴、軽いゲーム程度なら余裕で、
重い作業はリモートでワークステーションに接続すればよい
- 私はProxmox VM + eGPU構成で実験している
  1 vCPU、4GB RAMだけでもWeb閲覧や趣味のプロジェクトには十分だ
  ハードウェアメーカーは「プロには高性能ノートPCが必要だ」と誇大広告してきたように思う
- 8コアRyzenミニPCから8コアデスクトップに替えたら、ユニットテスト速度がずっと速くなった
  TDP差が性能差を大きくしている
- 私もBeelinkミニPCを使っているが、机の上がすっきりして、
  高性能な機材は防音された空間に置いておけるので快適だ
PCI/CPU構造そのものがなぜ必要なのか疑問だ
AppleとNVIDIAのようにCPUとMPPを同じパッケージに入れるのが正しい方向に思える
- その方式はレイテンシに敏感な作業には有利だが、
  AIやHPCのような大規模計算では大きな差がないかもしれない

大型GPUに大型PCは必要ない

実験概要

4基のGPUを接続したRaspberry Piの事例

コストと効率の比較

Jellyfinトランスコーディングベンチマーク

GravityMarkレンダリングテスト

AIおよびLLM性能の比較

デュアルGPU構成の実験

結論

関連記事

1件のコメント

Hacker Newsの意見