2 ポイント 投稿者 GN⁺ 2025-08-22 | 1件のコメント | WhatsAppで共有
  • DeepSeek-V3.1 は次世代の エージェント時代 に向けた第一段階である
  • 1つのモデルで Think(推論ベース)Non-Think(非推論ベース) の2つのモードを選択的に使える ハイブリッド推論 機能を搭載
  • DeepSeek-V3.1-Think モードでは、従来モデル DeepSeek-R1-0528 と比べてより短い時間で正解を導き出せるようになり、効率性が大きく向上
  • 事後学習(Post-training) により、ツール活用、外部システム操作、多段階エージェント課題などでのモデルの役割遂行能力が大幅に改善
  • ユーザーは DeepSeek チャットボットサービスで「DeepThink」ボタンを通じて Think/Non-Think モード切り替え を自由に行える
  • API アップデート
    • SWE(Software Engineering)および Terminal-Bench 評価で より優れた結果 を達成
    • 複雑な検索やマルチステップ課題で 多段階推論と問題解決能力 が大きく強化
    • 全体的な 推論効率 が大幅に向上
  • 料金プラン変更(9/25から適用)
    • 入力 API : 1Mトークンあたり $0.07(キャッシュヒット) / $0.56(キャッシュミス)
    • 出力 API : 1Mトークンあたり $1.68

1件のコメント

 
GN⁺ 2025-08-22
Hacker Newsの意見
  • ローカルで実行する際にGGUFモデルを作成しており、動的2bit方式(2bit MoE、残りは6-8bit)で良い性能を出すにはRAMとVRAMを合わせて約250GBが必要とのこと。SSDオフロードも可能だが遅い。実行方法や最適パラメータなどの詳細は公式ドキュメントを参照してほしい
    • ただ、unslothがPythonライブラリでありながらapt-getをsudoで実行しようとする点は不思議だ。自分のNixOSではこれが失敗するため、使いづらい
    • こうした動的2bit圧縮で、元のモデルと比べてどの程度性能が落ちるのかというベンチマーク結果が気になる
  • 参考までにterminal-benchリーダーボードを共有する。GPT-5、Claude 4、GLM-4.5とは差が大きいが、他のオープンウェイトモデルと比べると比較的健闘している。とはいえベンチマークがすべてを物語るわけではないので、実際の結果は時間が経ってみないと分からない
    • このベンチマークはagent toolとモデルを混在させていて、結果の一貫性に欠けると思う。agent toolだけ固定してモデルだけ比較してこそ意味がある。この手のベンチマークは信頼性が低めで、実際にモデルを使って自分の問題に当てはめてみるほうがよいと思う
    • 体感では出力品質はかなり良かった
    • AnthropicやOpenAIのような企業も、特定のベンチマーク向けにカスタムエージェントを開発する傾向がある
    • DeepSeek R1はすでに置き換えられた旧モデルだという指摘があり、更新内容を把握した
    • 価格が高すぎないことも重要で、SOTAモデルであっても手が届く価格でないと関心を持ちにくい
  • 以前の閑散期割引がなくなったのは残念だ。当時は大量にトークンを出力しても費用がほとんどかからなかった。それでも依然として価格競争力は非常に高いので、大きな不満はない
  • artificialanalysis.aiのベンチ結果によれば、おおむねgpt-oss-120Bと同程度の知能だが、約10倍遅く3倍高い
    • 提示されたソースは現時点で特定のプロバイダ1社しか表示していない。同じプロバイダでgpt-oss-120Bdeepseek-chat-v3.1を比較したほうがより正確だろう。gpt-oss-120Bはすでに構築・最適化済みのプロバイダが多く、その点で有利であることも考慮する必要がある
  • DeepSeek V3.1はハイブリッド推論モデルで、ツール呼び出し(Task Tool Calling)に強みがある。ただし、標準JSON形式ではなく古いツールフォーマットをランダムに使う現象が頻繁に見られる。おそらくV3の学習データにそうした資料が多く含まれていたのだろう
    • strict(ベータ)のfunction callingを試したか気になる。関連するガイドがある
    • どのフォーマットを指しているのか気になる。JSONはLLMに構造化出力を強制するのに適していると理解していたので、なぜあえてJSONから外れるのか疑問だ
  • Qwen3 235B 2507 Reasoning(自分の好きなモデル)やgpt-oss-120Bには及ばないように見える。ベンチマークのリンクおよび価格の参考
    • 現時点ではQwen3 2507系モデルがローカル最強だと思う。GPUとおよそ32GBのRAMがあれば、A3Bモデルでのペアプログラミング作業に非常に向いている
  • ここ6か月で使ったモデルの中では、DeepSeek V3.1が最も幻覚(hallucination)が多い
    • どのcontext lengthを使ったのか気になる
    • 今回は質の悪いデータを拾ってきた可能性を尋ねている
  • V3とQwen3 Coderの中間くらいの位置づけだ。比較リンク
    • gpt-5 Miniモデルが無料提供されているかどうかを尋ねている
  • オープンウェイトモデルの中では競争力がありそうだが、GPT-5やClaudeと比べるとまだ差は大きい
  • GLM-4.5よりagentic codingタスクで優れているという証拠はまだ見ていない
    • それがすべてなのか、あるいは他に見落としている根拠があるのかと聞き返している