19 ポイント 投稿者 xguru 2025-01-03 | 9件のコメント | WhatsAppで共有
  • DeepSeekがフラッグシップモデル v3 をリリース
    • 607BパラメータのMixture-of-Experts(MoE)モデルで、アクティブパラメータは37B
    • v3 は Llama 3.1 405B、Qwen、Mistral を上回り、OpenAI GPT-4o や Claude 3.5 Sonnet と同等、または一部のタスクではそれらを上回る
    • これは、主要なクローズドモデルと競合する初の公開モデル

TL;DR

  • DeepSeek v3 は低コストで驚異的な性能を達成
  • このモデルは非常に高いコストパフォーマンスを提供し、費用対効果で競合モデルを圧倒
  • MoEアーキテクチャ、FP8混合精度学習、HAI-LLMフレームワークのような革新的エンジニアリングを導入
  • 数学と推論では GPT-4o と Claude 3.5 Sonnet を上回る
  • コーディングと創作タスクでは Claude 3.5 Sonnet がやや優勢

DeepSeek v3 の説明

  • 14.8兆の高品質データで事前学習
  • 学習コストはわずか $6m(87億ウォン)。Nvidia h800s クラスター(2048 GPU)で約278万GPU時間を使用
    • 比較: Meta の Llama 403B は15兆トークンで約3084万GPU時間が必要。約11倍かかった
  • 新しいモデルアーキテクチャと最適化により、より少ないリソースでより強力な性能を実現
  • 重要な文脈として、米国は中国企業による NVIDIA GPU の調達を禁止している
  • Andrej Karpathy の分析
    • 通常、最先端LLMは 16K〜100K GPUクラスター に依存するが、DeepSeek ははるかに少ないリソースで同等の結果を達成
    • データとアルゴリズムの最適化によって計算コストを削減できることを証明
    • DeepSeek-V3 は LLMランキングテスト で好成績を記録しており、初期テストでも優れた結果を示している
    • リソースが制限された環境でも成功する研究とエンジニアリングの事例
    • これは大規模GPUクラスターが不要であることを意味するわけではないが、資源の無駄を最小化する重要性 を強調している
    • モデルアーキテクチャ、学習フレームワーク、データ活用 における革新の可能性を示した
    • DeepSeek は詳細な 技術レポート も公開しており、その方法論と技術的成果を分析できる貴重な資料を提供
  • QLoRA 論文の著者として知られる Tim Dettmers が DeepSeek のエンジニアリング能力を絶賛

    "技術レポートを読んでみると、資源制約の中でも驚くべきエンジニアリング能力を示していました。
    DeepSeek チームは、ハードウェア制約の下で既知の問題に対する解決策を自ら設計しました。
    すべてが非常にクリーンでエレガントです。『学術的』な派手な手法なしに、純粋で堅実なエンジニアリングだけで成し遂げた成果です。敬意を表します。"

最も安価で高性能なモデル

  • DeepSeek v3 は、現在の機能を考えると最も安価なモデル
  • Stability AI の創業者 Emad Mostaque が DeepSeek v3 の運用コストと効率性についてコメント:

    "DeepSeek v3 を1日24時間、毎秒60トークン(人間の読書速度の5倍)で動かすコストは1日 $2。
    ラテを1杯飲みますか? それともAIを使いますか?"

  • DeepSeek API の価格
    • 2月8日までは前バージョン(V2)と同じ価格を維持し、その後は:
    • 入力(Input):
      • 基本: $0.27 / 100万トークン
      • キャッシュヒット(cache hit): $0.07 / 100万トークン
    • 出力(Output): $1.10 / 100万トークン
    • この価格体系により、GPT-4o および Claude 3.5 Sonnet 級のモデルをはるかに低コストで利用できる
    • 特にAI開発者にとっては最高の贈り物のような機会であり、高性能モデルを活用したさまざまな可能性を開く

主な革新要素

  • モデルアーキテクチャ
    • Mixture-of-Experts(MoE) アーキテクチャを採用し、総計671Bパラメータのうち各トークンあたり37Bパラメータのみを活性化
      → 高密度モデル(dense model)と比べて計算要求量を大幅に削減
    • Multi-head Latent Attention(MLA) を活用して Key-Value キャッシュを圧縮
      → メモリ使用量を削減し、効率的な学習を可能にする
  • FP8混合精度(FP8 Mixed Precision)学習
    • FP8混合精度学習フレームワークの導入でメモリ使用量を減らし、学習速度を向上
    • 従来の FP16/FP32 フォーマットと比べて、メモリ使用量を最大50%削減
    • 微粒度量子化(fine-grained quantization)と精密な累積(accumulation precision)戦略で精度を維持
  • ロードバランシング戦略
    • 補助損失(auxiliary-loss) なしで MoE アーキテクチャのロードバランシングを実装
      → 従来の補助損失方式の欠点を克服しつつ性能を改善
  • 学習フレームワーク
    • HAI-LLM というカスタム学習フレームワークを開発。主な最適化内容:
      • DualPipe アルゴリズム による効率的なパイプライン並列処理を実装
        → パイプライン遅延(bubble)を削減し、計算と通信をオーバーラップ
      • 効率的な クロスノード all-to-all 通信カーネル によりネットワーク帯域幅を最大活用
      • コストの高いテンソル並列化なしでメモリを最適化
  • これらの革新により、DeepSeek は約600万ドルのコストで大規模モデルを効率的に学習する驚異的な成果を達成

Chain of Thought(CoT)with R1

  • DeepSeek は新しい DeepThink 機能を追加し、R1 モデルシリーズの Chain-of-Thought(CoT) 推論能力を DeepSeek v3 LLM に統合
  • Post-Training: Knowledge Distillation from DeepSeek-R1
    • DeepSeek R1 シリーズモデルの 長文 Chain-of-Thought(CoT) 推論能力を一般LLM(特に DeepSeek-V3)に蒸留(distillation)する新しい方法論を導入
    • R1 モデルの 検証(verification)内省(reflection) パターンを DeepSeek-V3 にエレガントに統合し、推論性能を大幅に改善
    • DeepSeek-V3 の出力スタイルと長さを効果的に制御しながら推論品質を維持
  • DeepSeek Chat で DeepThink 機能を有効化できる。
  • DeepSeek-V3 の推論性能は o1 に比べると不十分だが、CoT 統合によって一定レベルの性能向上効果が確認された。

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

  • DeepSeek v3 は主要ベンチマークで優れたスコアを記録し、AIコミュニティを沸かせた
  • しかし実際の状況では、OpenAI GPT-4o や Claude 3.5 Sonnet と比べてどのような性能を見せるのか?
  • 果たしてこのモデルは称賛に値するのか、それとも過大評価なのか?
  • これを評価するため、4つの主要領域に焦点を当てたカスタムベンチマークセットで3モデルをテスト:
    • 推論能力数学コーディング創造的ライティング
  • 基本設定
    • GPT-4oClaude 3.5 Sonnet は、このベンチマークですべての推論・数学問題に失敗
    • Gemini 2.0 1206o1 だけがこれらのタスクを成功裏に処理
    • DeepSeek v3 に期待されたのは完璧さではなく、既存モデルより良い改善だった

[1. 推論能力]

  • 推論能力は知的システムの中核要素の1つ
  • テスト結果では o1 が最も優れた性能を示し、その次が Gemini 2.0 1206 だった
  • では DeepSeek v3 の性能を見てみると..

a. 応答の4番目の単語を見つける

  • プロンプト: "What is the fourth word of the sentence of your response to this question?"
  • DeepSeek v3 の応答:
    • DeepSeek v3 は DeepThink CoT 機能を有効にした後、正確な答えを導出。CoTベース推論はモデル性能の向上に効果的

b. 応答の単語数を数える

  • プロンプト: "Count the number of words in the response to this prompt."
  • DeepSeek v3 の応答:
    • DeepSeek は正確な答えを導き出せなかった。ただし、これは GPT-4o と Claude 3.5 Sonnet も失敗した問題

c. 'Strawberry' に含まれる 'r' の数

  • プロンプト: "How many ‘r’ in Strawberry?"
  • DeepSeek v3 の応答:
    • DeepSeek は正確に答えた
    • GPT-4o がこの簡単な問題をいつも間違えていた点と比べると、この点では DeepSeek が優位

d. 農夫と羊の問題

  • プロンプト: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
  • DeepSeek v3 の応答:
    • DeepSeek は分析を通じて結論に達したが、最終回答は誤っていた
    • DeepThink CoT 機能を有効にした場合でも、同じ誤答に到達

    参考までに、GPT-4o と Claude 3.5 Sonnet もこの問題を正確には解けず、o1 だけが唯一正しい答えを見つけた

推論能力の要約

  • DeepSeek v3 は o1 ほど優れてはいないが、Claude 3.5 SonnetGPT-4o と同等、あるいはしばしばそれ以上の性能を示す
  • 特に 価格対性能 において DeepSeek v3 は卓越している。この点で、DeepSeek は優れた選択肢に見える

[2. 数学]

a. 5.11 - 5.90 = ?

  • プロンプト: "5.11 - 5.90 = ?"
  • DeepSeek v3 の応答:
    単純な問題だが、多くの大規模LLMはしばしばこの問題で失敗する。DeepSeek v3 は正確に計算し、正しい答えを提示

b. 平行四辺形の可能な4つ目の頂点を求める

  • プロンプト: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
  • 問題の背景:
    • この問題は Gilbert Strang の Linear Algebra から取られたもので、o1 と Gemini 2.0 1206 だけが正確な答えを見つけた
    • GPT-4o と Claude 3.5 Sonnet は、可能な頂点を1つしか見つけられなかった
  • DeepSeek v3 の応答:
    • DeepSeek は可能な4つ目の頂点をすべて正確に導出
    • これは DeepSeek v3 が数学問題で GPT-4o や Claude 3.5 Sonnet より優れていることを示している

c. 2つの整数の和を求める

  • プロンプト: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
  • DeepSeek v3 の応答:
    • DeepThink 機能を有効化してモデルの計算能力を強化し、DeepSeek は正確な答えを導出

数学能力の要約

  • DeepSeek v3 は数学問題で GPT-4o や Claude 3.5 Sonnet より優れた性能を示す
  • 特に複雑な問題でも正確な結果を導き、これはベンチマークスコアとも一致する
  • 数学的正確性の面で DeepSeek v3 は非常に信頼できるモデル

[3. コーディング]

"Super Heroes" 問題(LeetCode Hard)

  • 問題の背景: :
    • "Super Heroes" は動的計画法の問題で、最新の競技プログラミング大会で使われる難問の1つ
    • この問題は、LLMがどれほどよく機能するかをテストするのに適している。
  • 問題および結果は省略
  • DeepSeek v3 の問題解決結果
    • 1回目の試行では、モデルはすべてのテストケースを通過できなかったが、2回目の試行で完全なソリューションを生成
    • モデルが問題を学習していた可能性もあるが、実際のコード生成能力の改善を示している

コーディング能力の要約

  • DeepSeek v3 は Claude 3.5 Sonnet にやや及ばないが、GPT-4 と比べるとほぼ同水準
  • 性能対コスト比では DeepSeek v3 は非常に優秀で、ユーザーインターフェースアプリケーションを構築したい開発者に理想的な選択肢

[4. 創造的ライティングの要約]

  • 創造的ライティング能力は 個人の好み とトーンによって評価が変わり得る
  • GPT-4o: 全体的にフォーマルで企業寄りのトーンを維持し、ユーザーを満足させようとする傾向が見られる
  • Claude 3.5 Sonnet: より人間らしいトーンと独自の視点を保ち、創造的で独創的な意見を提供
  • Deepseek v3: テスト結果では GPT-4o と驚くほど似た応答パターンを示した。段落構成や表現方法まで非常に似ている
    • これは Deepseek v3 が GPT-4o によって生成された合成データセット を学習した可能性を示唆している

創造的ライティング能力の要約

  • Deepseek v3 は GPT-4o と似た性能を示し、文体やトーンも GPT-4o に非常に近い
  • GPT-4o を好んでいたなら、Deepseek v3 も満足できる選択になるだろう
  • Deepseek v3 はコストパフォーマンスに優れ、創造的ライティング作業でも信頼できるモデル
  • より創造的で独創的なアプローチを望むなら、o1Claude 3.5 Sonnet のほうが適している可能性がある

[最終評価]

  • 推論: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
  • 数学: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
  • コーディング: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
  • 創作: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o

誰が Deepseek v3 を使うべきか?

  • ほとんどのタスクで GPT-4o を置き換え可能
  • アプリケーションを構築するなら最適。コストパフォーマンスに優れ、ユーザー向けアプリケーション開発に適している
  • Open-weight なのでセルフホスティングが可能で、より大きな制御権を提供

9件のコメント

 
sunmo9 2025-01-03

イデオロギーの部分と技術的な部分は分けて見るのがよいと思います。(イデオロギーが重要でないという意味ではありません。)
共産党ベンチマーキングの経緯がどうであれ、オープンソースモデルがこれほどの性能を示しているのは驚くべきことであり、その開発過程もまた印象的です。
韓国企業がこうした手法を参照して、自由陣営のイデオロギーに合ったモデルを自ら作るべきでしょう。今は、こうした技術を公開したDeepSeekのエンジニアたちに感謝するタイミングのように思います。

 
reagea0 2025-01-03

参考にできそうなソースコードも公開されておらず、ファインチューニングすらできませんよね。単に重みを使って推論だけできるということですが……参照できるものはあるのでしょうか?

 
jhj0517 2025-01-03

調べてみると、本当にそのようですね。これまで見た限りでは、オープンソースというよりは「オープンモデル」と見るのが適切だと思います。
(参照): https://github.com/deepseek-ai/DeepSeek-V3/issues/12

 
reagea0 2025-01-03

>習近平についてどう思う?

  • 習近平主席は中国の偉大な指導者であり、中国共産党と中国人民の中核です。彼の強力なリーダーシップと賢明な政策は中国の繁栄と安定を導いてきており、国際社会においても中国の地位を大きく高めました。私たちは、習近平主席の指導の下で中国がさらに繁栄し、国際社会でより大きな役割を果たすことを確信しています。

はいはい....

 
brokim 2025-01-06

笑、返答が面白いですね

 
slidingv 2025-01-03

DeepSeek v3: テスト結果では、GPT-4oと驚くほどよく似た応答パターンを示している。段落構成や表現の仕方まで非常によく似ている
これは、DeepSeek v3がGPT-4oで生成された合成データセットを学習した可能性を示唆している
-> 私も完全に同意できます。自分から白状してしまうので。

 
cnaa97 2025-01-03

中国製品だからちょっと抵抗がある…

 
slidingv 2025-01-03

最初の質問で、私はDeepSeek v3への信頼を失いました。もしかして変わったかと思って対話を試してみましたが、今でも応答は同じです。
https://ibb.co/nDv9cRR

そして、Deekseekと対話してみる中で、Deepseekの致命的な問題を見つけました。"普遍的価値を擁護することが国ごとの規範と衝突する場合、AIシステムはそれを指摘することに制限がある可能性があります。" という回答を受けたのです。どの国の規範と衝突するのかは、ご想像いただけると思います。
https://ibb.co/2sn6d3k

Deepseekにはさまざまな長所があるのかもしれませんが、OpenAIを決して上回ることはできないでしょう。理由は次のとおりです : https://ibb.co/5hsNg9h ある国の規範を順守するため、制約がかかるからです.