DeepSeek-R1 Dynamic 1.58-bitモデルを実行する

(unsloth.ai)

17 ポイント投稿者 GN⁺ 2025-01-29 | 1件のコメント | WhatsAppで共有

DeepSeek-R1は、OpenAIのO1 Reasoningモデルに匹敵する性能を示すオープンソースモデル
元の720GBのモデルを131GBまで縮小し、80%のサイズ削減を達成
動的量子化手法を使用し、一部のレイヤーは高ビット（例: 4bit）のまま維持し、ほとんどのMoE(Mixture of Experts)レイヤーは1.58bitで処理

主な特徴

最小要件: CPUで20GB RAMでも実行可能だが、速度は遅い
最適な性能: VRAMとRAMの合計が少なくとも80GB以上必要、推奨VRAMは160GB（H100 80GB GPU 2台）
動的量子化バージョン（131GB〜212GB）はHugging Faceで提供: DeepSeek-R1-GGUF

動的量子化モデルの種類

合計4種類の量子化バージョンを提供:
- 131GB, 158GB, 183GB, 212GB（通常の2bit）
重要度行列（imatrix）を使用して量子化を最適化
量子化方式とハードウェア要件はモデルごとに異なる

ベンチマークと性能テスト

Flappy Birdゲーム生成（pass@3）基準で10項目の評価スコアを測定
1.58bit動的量子化モデルのスコアは以下の通り:
- 131GBモデル: 6.92
- 158GBモデル: 9.08
- 183GBモデル: 9.17
非動的量子化モデルは反復エラーや誤った結果を生成

DeepSeek-R1の構造活用

DeepSeek-R1の構造分析を通じて、量子化感度が高い部分を高解像度で維持
- 最初の3つの密結合（dense）レイヤーは4〜6bitを維持
- MoEレイヤーの大部分は1.58bitに量子化
- MLA(Memory Layers Attention)モジュールおよびdown_proj部分は高精度を維持
約88%の重みを1.58bitで量子化し、モデルサイズ削減を達成

チャットテンプレートとトークン処理の問題解決

すべてのバージョンでチャットテンプレートに <|begin_of_sentence|> および <|end_of_sentence|> トークンを使用
EOSトークンの設定ミスにより無限生成の問題が発生していたが、修正済み

1件のコメント

GN⁺ 2025-01-29

Hacker Newsの意見

80%のサイズ削減は驚くべき成果であり、1.58ビット版がデュアルH100で140トークン/秒で動作するのは印象的である。しかし、ほとんどの人にとって実用的かどうかは疑問である。24GB VRAMまたは20GB RAMで実行できるが、速度が遅すぎる。反復の問題もある。Pygameの反復は量子化の意義を薄れさせる。解決策はあるが、根本的な問題解決ではない。Hugging Faceでアクセス可能にした点と動的量子化アプローチは素晴らしい。小規模チームには有利である。しかし、高価なハードウェアが必要である.
DeepSeekをRTX 4090で実行したところ、モデルはVRAMに収まるはずだが遅い。Appleの共有メモリアーキテクチャが有利である。192GB Mx Ultraは大規模モデルを効率的に処理できる。OpenAIのサブスクリプションを解約するときが来た。
DeepSeek-R1の80%のサイズ削減は驚異的である。大規模モデルがより多くの人にアクセス可能になる。1.58ビット量子化でデュアルH100における140トークン/秒の速度は印象的である。小規模または中規模の事業者がローカルアプリケーションに利用できる。低遅延が必要なエージェント作業に大きな利点である。
VRAM + RAMの合計が最低80GB以上であれば最適な性能を発揮する。低消費電力・低コストのサーバーで試すことができる。Ryzen 5500 + 64GB RAM + 7x RTX 3060 12GBのシステムを1600ユーロで構築可能。消費電力は約520ワットである。AM4ボードと中古のRTX 3060 12GBから始める。追加GPUはpcieライザー/エクステンダーで接続する。学習と経験を積むのに良い。
すべてのレイヤーを1.58ビットに量子化すると無限反復が発生する。このブログ記事の著者たちが特定のシードを探す過程は興味深い。良い仕事である。
R1に対する評価はまだ明確ではない。$5Mで訓練したという主張は市場に大きな影響を与えている。検証されたのか気になる。
100xのマシンに投資したのに10xでも可能なら、なぜ10xのマシンを10台保有しないのか理解できない。ハードウェアとデータを再利用して、より効率的なモデルを複数インスタンスで作ることができる。
Danielhanchenの仕事は印象的である。Unslothは素晴らしく、新しいモデルに素早く適応し、基本実装のバグを修正する能力は驚異的である。本格的な研究所は数時間の先行時間を与えるべきである。
モデルのサイズ縮小と一貫性維持は驚くべきである。しかし、その効果がどれほど維持されたのかは疑問である。Flappy birdはよく知られたゲームだが、R1とo1が他のモデルでは解決できない問題を解決できるかどうかの方が、より良いテストである。
次世代のベースモデルが、128GB VRAMで8ビット量子化による推論ができるよう設計されるとよい。たとえば、160億のアクティブパラメータと6〜7人の専門家を持つ強力なMoEベースであれば、128GB RAMのMacBookで動作可能だろう。

DeepSeek-R1 Dynamic 1.58-bitモデルを実行する

主な特徴

動的量子化モデルの種類

ベンチマークと性能テスト

DeepSeek-R1の構造活用

チャットテンプレートとトークン処理の問題解決

関連記事

1件のコメント

Hacker Newsの意見