17 ポイント 投稿者 GN⁺ 2025-01-29 | 1件のコメント | WhatsAppで共有
  • DeepSeek-R1は、OpenAIのO1 Reasoningモデルに匹敵する性能を示すオープンソースモデル
  • 元の720GBのモデルを131GBまで縮小し、80%のサイズ削減を達成
  • 動的量子化手法を使用し、一部のレイヤーは高ビット(例: 4bit)のまま維持し、ほとんどのMoE(Mixture of Experts)レイヤーは1.58bitで処理

主な特徴

  • 最小要件: CPUで20GB RAMでも実行可能だが、速度は遅い
  • 最適な性能: VRAMとRAMの合計が少なくとも80GB以上必要、推奨VRAMは160GB(H100 80GB GPU 2台)
  • 動的量子化バージョン(131GB〜212GB)はHugging Faceで提供: DeepSeek-R1-GGUF

動的量子化モデルの種類

  • 合計4種類の量子化バージョンを提供:
    • 131GB, 158GB, 183GB, 212GB(通常の2bit)
  • 重要度行列(imatrix)を使用して量子化を最適化
  • 量子化方式とハードウェア要件はモデルごとに異なる

ベンチマークと性能テスト

  • Flappy Birdゲーム生成(pass@3)基準で10項目の評価スコアを測定
  • 1.58bit動的量子化モデルのスコアは以下の通り:
    • 131GBモデル: 6.92
    • 158GBモデル: 9.08
    • 183GBモデル: 9.17
  • 非動的量子化モデルは反復エラーや誤った結果を生成

DeepSeek-R1の構造活用

  • DeepSeek-R1の構造分析を通じて、量子化感度が高い部分を高解像度で維持
    • 最初の3つの密結合(dense)レイヤーは4〜6bitを維持
    • MoEレイヤーの大部分は1.58bitに量子化
    • MLA(Memory Layers Attention)モジュールおよびdown_proj部分は高精度を維持
  • 約88%の重みを1.58bitで量子化し、モデルサイズ削減を達成

チャットテンプレートとトークン処理の問題解決

  • すべてのバージョンでチャットテンプレートに <|begin_of_sentence|> および <|end_of_sentence|> トークンを使用
  • EOSトークンの設定ミスにより無限生成の問題が発生していたが、修正済み

1件のコメント

 
GN⁺ 2025-01-29
Hacker Newsの意見
  • 80%のサイズ削減は驚くべき成果であり、1.58ビット版がデュアルH100で140トークン/秒で動作するのは印象的である。しかし、ほとんどの人にとって実用的かどうかは疑問である。24GB VRAMまたは20GB RAMで実行できるが、速度が遅すぎる。反復の問題もある。Pygameの反復は量子化の意義を薄れさせる。解決策はあるが、根本的な問題解決ではない。Hugging Faceでアクセス可能にした点と動的量子化アプローチは素晴らしい。小規模チームには有利である。しかし、高価なハードウェアが必要である.

  • DeepSeekをRTX 4090で実行したところ、モデルはVRAMに収まるはずだが遅い。Appleの共有メモリアーキテクチャが有利である。192GB Mx Ultraは大規模モデルを効率的に処理できる。OpenAIのサブスクリプションを解約するときが来た。

  • DeepSeek-R1の80%のサイズ削減は驚異的である。大規模モデルがより多くの人にアクセス可能になる。1.58ビット量子化でデュアルH100における140トークン/秒の速度は印象的である。小規模または中規模の事業者がローカルアプリケーションに利用できる。低遅延が必要なエージェント作業に大きな利点である。

  • VRAM + RAMの合計が最低80GB以上であれば最適な性能を発揮する。低消費電力・低コストのサーバーで試すことができる。Ryzen 5500 + 64GB RAM + 7x RTX 3060 12GBのシステムを1600ユーロで構築可能。消費電力は約520ワットである。AM4ボードと中古のRTX 3060 12GBから始める。追加GPUはpcieライザー/エクステンダーで接続する。学習と経験を積むのに良い。

  • すべてのレイヤーを1.58ビットに量子化すると無限反復が発生する。このブログ記事の著者たちが特定のシードを探す過程は興味深い。良い仕事である。

  • R1に対する評価はまだ明確ではない。$5Mで訓練したという主張は市場に大きな影響を与えている。検証されたのか気になる。

  • 100xのマシンに投資したのに10xでも可能なら、なぜ10xのマシンを10台保有しないのか理解できない。ハードウェアとデータを再利用して、より効率的なモデルを複数インスタンスで作ることができる。

  • Danielhanchenの仕事は印象的である。Unslothは素晴らしく、新しいモデルに素早く適応し、基本実装のバグを修正する能力は驚異的である。本格的な研究所は数時間の先行時間を与えるべきである。

  • モデルのサイズ縮小と一貫性維持は驚くべきである。しかし、その効果がどれほど維持されたのかは疑問である。Flappy birdはよく知られたゲームだが、R1とo1が他のモデルでは解決できない問題を解決できるかどうかの方が、より良いテストである。

  • 次世代のベースモデルが、128GB VRAMで8ビット量子化による推論ができるよう設計されるとよい。たとえば、160億のアクティブパラメータと6〜7人の専門家を持つ強力なMoEベースであれば、128GB RAMのMacBookで動作可能だろう。