5 ポイント 投稿者 GN⁺ 2025-01-22 | 4件のコメント | WhatsAppで共有
  • DeepSeekの第1世代推論モデルR1は、OpenAI-o1に匹敵する性能を備えている
    • 数学、コード、推論タスクで優れた性能を発揮する
  • さまざまなサイズのモデルを提供: 1.5B, 7B, 8B, 14B, 32B, 70B, 671B
    • 各モデルは特定のタスクに最適化されている
  • ライセンス
    • MITライセンスの下で提供される
    • 無料で利用可能で、商用利用も可能

4件のコメント

 
gadget5 2025-01-22

R1 にアイデンティティについて尋ねると、自分は DeepSeek とはまったく関係なく、OpenAI GPT だと必ず答えます

 
mse9000 2025-01-31

2023年10月までのトレーニングデータだと答えるのが、なんだか微妙ですね……

 
GN⁺ 2025-01-22
Hacker News の意見
  • DeepSeek V3 は政治的な敏感さを認識しているように見える。"天安門広場は何で有名か?"という質問に、"申し訳ありませんが、現在の範囲外です"と回答する

    • 政治的な現実に対応するために変更が必要だという点は理解できるが、このような話題について LLM が嘘をつくことには不快感がある
    • 政治的理由でモデルに導入された変更点の一覧を、オープンソースとして公開する予定があるのか気になる
    • モデルを政治的に正しくすることと、虐殺を隠蔽することは別問題である。これは非常に危険な道であり、ここで終わることはないだろう
  • R1 論文を見ると、ベンチマークが正確であれば、1.5b と 7b のモデルでさえ Claude 3.5 Sonnet を上回っている。これらのモデルを 8〜16GB の MacBook で実行できるのは驚異的だ

  • タイトルが間違っている。ollama にあるのは llama、qwen の蒸留モデルだけで、deepseekv3 の公式 MoE r1 モデルではない

  • 1.5b モデルで "Python でリストをどうやって反転しますか" と質問すると、止まらずに考えを吐き出し続ける。繰り返しにもならない。興味深い

  • ドキュメント化が必要だ。プロジェクト全体の説明が "大規模言語モデルを始めよう" に見える

    • インストール前にいくつか質問がある。クライアントインターフェースに縛られているのか、システム要件は何か、など
  • 3年前のノートPCでこのモデルを実行できることに驚いている

    • Rust で 2 つの数値を足す関数を書く例を示している
    • Rust では fn キーワードを使って関数を定義する。数値型を明示していないのでジェネリックにする
    • Add トレイトを使って加算を行う。標準ライブラリから取り込む必要がある
    • 関数シグネチャは fn add_numbers<T: Add<Output = T>>(a: T, b: T) -> T となる
    • Rust では異なる数値型を混在させることはできないため、明示的な変換が必要になる
  • Rust で 2 つの数値を足すシンプルな関数の例を示している

    • i32 型の 2 つの整数を足す関数だ
    • ジェネリクスとトレイト境界を使えば、ほかの数値型にも対応できる
  • DeepSeek R1 モデルの最大モデルで推論するには、どのような有料 API オプションがあるのか気になる

    • 最大の DeepSeek R1 モデルをファインチューニングしたり、強化学習したりするにはどうすればよいのか気になる
  • RTX 4090 と 192GB RAM を持っている場合、どのサイズの DeepSeek R1 モデルをローカルで動かせるのか気になる

  • Nvidia 4070 に適したモデルサイズが何か気になる

  • Ollama はほぼ完璧に近い。しかし、Vulkan をサポートしていないのは大きな問題だ