DeepSeekの第1世代推論モデルR1は、OpenAI-o1に匹敵する性能を備えている 数学、コード、推論タスクで優れた性能を発揮する さまざまなサイズのモデルを提供: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B 各モデルは特定のタスクに最適化されている ライセンス MITライセンスの下で提供される 無料で利用可能で、商用利用も可能
4件のコメント
R1 にアイデンティティについて尋ねると、自分は DeepSeek とはまったく関係なく、OpenAI GPT だと必ず答えます
2023年10月までのトレーニングデータだと答えるのが、なんだか微妙ですね……
DeepSeek-R1モデル公開
Hacker News の意見
DeepSeek V3 は政治的な敏感さを認識しているように見える。"天安門広場は何で有名か?"という質問に、"申し訳ありませんが、現在の範囲外です"と回答する
R1 論文を見ると、ベンチマークが正確であれば、1.5b と 7b のモデルでさえ Claude 3.5 Sonnet を上回っている。これらのモデルを 8〜16GB の MacBook で実行できるのは驚異的だ
タイトルが間違っている。ollama にあるのは llama、qwen の蒸留モデルだけで、deepseekv3 の公式 MoE r1 モデルではない
1.5b モデルで "Python でリストをどうやって反転しますか" と質問すると、止まらずに考えを吐き出し続ける。繰り返しにもならない。興味深い
ドキュメント化が必要だ。プロジェクト全体の説明が "大規模言語モデルを始めよう" に見える
3年前のノートPCでこのモデルを実行できることに驚いている
fnキーワードを使って関数を定義する。数値型を明示していないのでジェネリックにするAddトレイトを使って加算を行う。標準ライブラリから取り込む必要があるfn add_numbers<T: Add<Output = T>>(a: T, b: T) -> TとなるRust で 2 つの数値を足すシンプルな関数の例を示している
i32型の 2 つの整数を足す関数だDeepSeek R1 モデルの最大モデルで推論するには、どのような有料 API オプションがあるのか気になる
RTX 4090 と 192GB RAM を持っている場合、どのサイズの DeepSeek R1 モデルをローカルで動かせるのか気になる
Nvidia 4070 に適したモデルサイズが何か気になる
Ollama はほぼ完璧に近い。しかし、Vulkan をサポートしていないのは大きな問題だ