9 ポイント 投稿者 GN⁺ 2025-12-21 | 1件のコメント | WhatsAppで共有
  • Raspberry Pi 5AMD、Intel、Nvidia GPU を動作させ、デスクトップPCと比較した実験では、性能低下が2〜5%程度にとどまるケースが多数確認された
  • JellyfinトランスコーディングGravityMarkレンダリングLLM/AI推論マルチGPU構成 の4項目をテストし、効率性とコストパフォーマンスを測定
  • 4基のNvidia RTX A5000 を接続した事例では、Intelサーバー比で2%以内の性能差 を示し、PCIeスイッチによるGPU間メモリ共有が重要な役割を果たした
  • Raspberry Pi eGPUシステム の総コストは約 $350〜400PCは$1500〜2000 で、消費電力もPiのほうが大幅に低い(アイドル時4〜5W vs 30W)
  • 大型GPUを効率的に活用できる 低消費電力・低コストの代替プラットフォーム として、Raspberry Piの可能性を示した事例

実験概要

  • Raspberry Pi 5の PCIe Gen 3 x1帯域幅(8 GT/s) という制約を踏まえつつも、GPU活用の可能性を検証
    • 比較対象は 最新のデスクトップPC(PCIe Gen 5 x16、512 GT/s)
  • テスト項目は メディアトランスコーディング(Jellyfin)GPUレンダリング(GravityMark)LLM/AI性能マルチGPU構成
  • Dolphin ICSPCIe Gen 4外部スイッチおよび3スロットバックプレーン を用いて、2基のGPU同時動作 実験を実施

4基のGPUを接続したRaspberry Piの事例

  • GitHubユーザー mpsparrow4基のNvidia RTX A5000 GPU を単一のPiに接続
    • Llama 3 70Bモデル 実行時、Intelサーバー比で2%以内の性能差(11.83 vs 12 tokens/sec)
  • PCIeスイッチ によりGPU間のメモリ共有が可能となり、Piの帯域幅制約を回避
  • 単一GPU構成でも、一部の処理では デスクトップと同等またはそれ以上の性能 を確認

コストと効率の比較

  • Raspberry Pi eGPU構成: 約 $350〜400Intel PC構成: 約 $1500〜2000
  • アイドル時消費電力: Pi 4〜5W、PC 30W
  • GPUを除けば同条件で コスト効率・電力効率 ともにPiが優位

Jellyfinトランスコーディングベンチマーク

  • Nvidia 4070 Ti 使用時、PCが生のスループット(2GB/s) では優位
    • Piは PCIe 850MB/sUSB SSD 300MB/s 程度
  • しかし H.264/H.265メディアストリーミング では、Piでも 1080p・4Kトランスコーディング を円滑に処理
    • NVENCハードウェアエンコード をサポートし、2本同時トランスコーディング も安定
  • AMD GPU ではトランスコーディングの安定性に一部問題が発生

GravityMarkレンダリングテスト

  • AMD GPU を中心にテストし、PCがわずかに高速だが差はごく小さい
  • RX 460 使用時、Piは PCより高い効率(性能/W) を記録
  • PCIe Gen 3 帯域幅が同じ旧型GPUでは、Piが 相対的な優位性 を確保

AIおよびLLM性能の比較

  • AMD Radeon AI Pro R9700(32GB VRAM) のテストでは 予想より低い性能 で、ドライバーまたはBAR設定の問題の可能性
  • Nvidia RTX 3060(12GB) 使用時、Llama 2 13Bモデル ではPiが PCより高速
  • 効率性の測定 では、Piが 電力あたりの処理量 でPCを上回った
  • RTX 4090 テストでも、大型モデル(Qwen3 30B) 基準で 5%以内の性能差 にとどまり、効率性ではPiが優位な場合が多かった
  • CUDAバックエンドVulkanバックエンド の両方がPiで正常に動作

デュアルGPU構成の実験

  • Dolphin PCIeインターコネクトボードMXH932 HBA を使用
  • ACS無効化 によりGPU間の直接メモリアクセスが可能
  • 異なるGPUモデル(4070、A4000)の組み合わせでは VRAMプーリング非対応 のため、性能向上は限定的
  • 同一GPU構成 では、より大きなモデル(Qwen3 30Bなど)の実行が可能
  • AMD RX 7900 XT + R9700 の組み合わせでは、ドライバー問題により一部モデルの実行に失敗
  • Intel PC は全体として高速だが、Piも大型モデルで近い性能 を維持

結論

  • 絶対性能と利便性 ではPCが優位
  • しかし GPU中心のワークロード低消費電力・低コスト環境 では Raspberry Piが実用的な代替手段 となる
  • アイドル時20〜30W削減Rockchip・QualcommベースのSBC はさらに高い効率とI/O帯域幅を提供
  • 実験の目的は Piの限界とGPUコンピューティング構造の学習 であり、その過程で 小型システムの可能性 も確認された

1件のコメント

 
GN⁺ 2025-12-21
Hacker Newsの意見
  • ローカルでLLMを動かすなら、結局のところGPUが中核になる
    なので、GPUの横に置ける最も安価なコンピュータは何かを考えている
    私はBARのような問題を理解したり修正したりする能力がないので、適当なGPUを挿した安価なx86ボックスを組んで使っている
    それでも、もっと効率的な方法があるのではないかという考えが頭から離れない

    • 私はローカルLLM向けの最適なハードウェア構成を集めるクラウドソーシングサイトを運営している
      サイトはinferbench.com、ソースコードはGitHubリポジトリにある
    • まだ単一のPCIeデバイスで意味のある性能を出すのは難しい
      GPUには最低でも128GB RAMが必要だと見ている
      CPU性能は低くてもよいが、複数のPCIeレーンをサポートする必要があるため、AMD EPYCのような低スペックのサーバー向けCPUが適している
    • M4 MaxやM3 UltraのようなAppleシリコンを使うことは考えなかったのか?
      中規模LLMにはかなり向いている
    • 君が言っているようなシステムは、実質的にDGX Sparkがその役割を果たしている
  • マルチGPUの部分が意外だと言うのは理解できない
    ほとんどのLLMフレームワーク(例: llama.cpp)はレイヤー単位でモデルを分割するので、逐次依存が生じてGPUを何枚使っても並列処理にならない
    一部のGPUはプロンプト処理に、別のGPUはトークン生成により速いこともあり、RadeonとNVIDIAを混在させると時々効果がある
    本当の性能向上はtensor parallelモードのようなバックエンドで可能になる
    これはデータフロー方向にニューラルネットワークを分割する方式なので、GPU間接続(PCIe x16、NVlink、Infinity Fabricなど)が良好である必要がある
    こうしたものがないと、GPU使用率が上下にばらついて見えることもある
    複数の作業を並列に走らせられるようにLLMを分割する方法、たとえば「マネージャー」と「エンジニア」の役割を分けるようなエージェント構造は興味深い

    • その通りで、それがまさにエージェントシステムの概念だ
      マネージャーモデルがプロンプトを作り、下位モデルが並列に作業してから結果を返す
    • レイヤー間転送サイズがキロバイト単位という話は誇張だ
      実際にはシーケンス長に応じてメガバイト単位まで増える
      たとえばQwen3 30Bのhidden stateが5120なら、8ビット量子化時にはトークンあたり5120バイトになる
      200トークンを超えるだけでMB単位になる
      PCIe x1の帯域幅(約2GB/s)でも十分だが、レイテンシの方がより大きな問題かもしれない
  • 誰かがこういう実験をしてくれて本当にうれしい
    私も予備のノートPCにeGPUをつないで使いながら、「これってRaspberry Piでもできるのでは?」と思っていた

  • ゲーム性能も見てほしかった
    ただしARMをサポートするAAAゲームを見つけるのは難しく、FEXでx86エミュレーションを強制するのは公平ではない

    • CPUボトルネックのないゲームを見つけるのが鍵になりそうだ
  • **constrained decoding(JSON schemaベース)**を使うと、CPU使用率が100%まで上がる
    自分のvLLMインスタンスでも同じ現象を見た

  • PCIe 3.0は1レーンあたり約1GB/sで、10Gb Ethernet級の速度が出る
    将来的にはGPUがホストシステムなしで独立動作する日が来るかもしれない
    すでにRadeon Pro SSGのようにGPUにSSDを載せた例もあったし、
    小型のRISC-VチップやRaspberry Pi級のコントローラだけでも十分かもしれない
    関連記事: TechPowerUp
    GPUがネットワークスイッチに直接接続され、400GbeやCXLベースの通信を行う構成も現実的だ
    また、High Bandwidth Flashのような次世代フラッシュ技術がDRAMを置き換える可能性もある
    関連記事: ServeTheHome, Tom’s Hardware

  • こうしたデータポイントを見ると、自分のメインPC構成を見直したくなる
    20W以下で動く300ドルのミニPCで十分そうだ
    Webブラウジング、動画視聴、軽いゲーム程度なら余裕で、
    重い作業はリモートでワークステーションに接続すればよい

    • 私はProxmox VM + eGPU構成で実験している
      1 vCPU、4GB RAMだけでもWeb閲覧や趣味のプロジェクトには十分だ
      ハードウェアメーカーは「プロには高性能ノートPCが必要だ」と誇大広告してきたように思う
    • 8コアRyzenミニPCから8コアデスクトップに替えたら、ユニットテスト速度がずっと速くなった
      TDP差が性能差を大きくしている
    • 私もBeelinkミニPCを使っているが、机の上がすっきりして、
      高性能な機材は防音された空間に置いておけるので快適だ
  • PCI/CPU構造そのものがなぜ必要なのか疑問だ
    AppleとNVIDIAのようにCPUとMPPを同じパッケージに入れるのが正しい方向に思える

    • その方式はレイテンシに敏感な作業には有利だが、
      AIやHPCのような大規模計算では大きな差がないかもしれない