llama.cpp プロジェクトで「WASMの速度を2倍向上」させるPRが公開
- SIMD命令を活用して
qX_K_q8_K および qX_0_q8_0 の内積(dot product)関数を最適化
- コードの大半(99%)は「DeepSeek-R1」によって自動生成
- DeepSeek-R1がプロンプトを処理するのに3〜5分を要した
DeepSeek-R1のコード生成性能
- PR作成者はDeepSeek-R1を使って最適化コードを生成・改善し、自身ではテストコードとプロンプト作成のみを直接実施
- 使用したプロンプトで確認可能
- DeepSeek-R1は
llm_groq.py を最適化する過程で優れた思考連鎖を示した
DeepSeek-R1 vs OpenAI o1 性能比較
- 同じ作業をOpenAI o1でも行ったが、DeepSeek-R1の結果の方が優れていた
- 例示コードで
model_map を最適化する思考過程:
- 当初は
model_map が必要だと判断
- その後、APIレスポンスに基づいて動的に構成できるのではないかと検討
- 最終的に
model_map を削除するのが最適な解決策だと判断
結論
- DeepSeek-R1は自動コード生成と最適化で優れた性能を示した
- WASMでSIMDを活用した最適化により、llama.cppの性能が大幅に向上
- PRが適用されれば、WebAssemblyベースのアプリケーションの実行速度が大きく改善されると期待される
4件のコメント
ollamaでdeepseek r1 14b 30b 70bを回してみたところ、全体的な推論は良いのですが、細かなミスが多いですね。r1は本当に素晴らしいです8b蒸留版を回してみましたが、日本語性能が落ちますね
コード生成では有望な結果を生み出しているようです
Hacker Newsの意見
DeepSeek-R1 が llama.cpp の PR のコードの 99% を書いた。AI がコーディングに大きく貢献できることを示す事例だ
DeepSeek-R1-Distill-Qwen-32B を Ollama 経由でノートPC上で動かしており、約 20GB の RAM が必要だ
DeepSeek-R1 が llama.cpp の PR のコードの 99% を書いたことは、注目すべきマイルストーンだ
DeepSeek に ARM SIMD コードを WASM コードへ変換するよう依頼し、これはコード最適化に役立った
LLM がコーディングに役立たないという主張は誤りだ
o1 Pro と Deepseek R1 を使って e2e テストを書いたところ、Deepseek のほうがより良いテストを書いた
Xuan-Son は ARM NEON を SIMD に変換するだけでなく、新しいアプローチを開発するよう依頼した
DeepSeek R1 を使って llm_groq.py プラグインを書き直し、これは Llama モデルをファインチューニングした deepseek-r1-distill-llama-70b で行われた
AGI が数か月以内に到来する可能性があり、トレーニングは 3 段階で進むだろう