3 ポイント 投稿者 GN⁺ 2025-02-17 | 1件のコメント | WhatsAppで共有
  • このプロジェクトは、Deepseek R1 Distill 8B Q40モデルをRaspberry Pi 5 8GBデバイスで実行する方法に関する結果を共有するもの。
  • 複数台のRaspberry Piを使用して、モデルの性能を評価および予測
  • 評価および予測結果
    • 2 x Raspberry Pi 5 8GB
      • 評価: 毎秒7.70トークン
      • 予測: 毎秒3.54トークン
    • 4 x Raspberry Pi 5 8GB
      • 評価: 毎秒11.68トークン
      • 予測: 毎秒6.43トークン
  • その他の情報
    • ネットワークが閉じた状態でテストを実施。
    • 複数デバイスを使ったクラスタ環境での性能を確認。

1件のコメント

 
GN⁺ 2025-02-17
Hacker Newsの意見
  • Raspberry Piで「DeepSeek R1」を動かすという話は、結局のところDeepSeekの蒸留手法で改変された llama や qwen を動かしている、というパターンにいつも落ち着く
    • デモでは、500トークン未満で質問が「解決」される様子が示されている
    • 実世界で有用なコンテキスト長(8〜16kトークン)で「思考」モデルを扱う場合、このような速度には到達できない点に注意すべき
    • 多数のチャネルを持つ EPYC でも、コンテキスト長が約4096を超えると 2〜4 t/s まで低下する
  • 320ポンドで Pi 5 を4台買えるが、中古の12GB 3080を見つけられれば、おそらく10倍以上のトークン速度が得られる
  • ここで興味深いのは、複数のコンピューターにまたがって llama 推論を分散実行できること
    • これは現代版の Beowulf クラスターだ
  • 複数の Raspberry Pi がどのように並列利用されているのか理解できなかった。この方向で案内してくれる人がいるとありがたい
  • Macでこのモデルを試したいなら、新しい llm-mlx プラグインを使って次のように実行できる
    • brew install llm または pipx install llm または uv tool install llm
    • llm install llm-mlx
    • llm mlx download-model mlx-community/DeepSeek-R1-Distill-Llama-8B
    • llm -m mlx-community/DeepSeek-R1-Distill-Llama-8B 'poem about an otter'
    • 今ちょうど実行してみたところ、22トークン/秒の性能が出た
  • こうした新しいAI技術をいつになったら全部「apt-get install」できるようになるのか気になる
  • メモリを増やすことが役立つのか気になる。最近、16GB RAM 搭載の RPi 5 が発売された
  • LLMベースの製品には、Alexa や Google Home のようにクラウド接続する代わりに、ローカルで動作するLLMが必要だ。なぜまだ存在しないのか、あるいはなぜ誰もこれをやっていないのか分からない