6 ポイント 投稿者 GN⁺ 2025-01-01 | 2件のコメント | WhatsAppで共有
  • DeepSeekは中国のAIスタートアップで、最近発表したR1モデルが複数の推論ベンチマークでOpenAIのo1モデルを上回った
  • 知名度は低いものの、注目に値するAI研究所として地位を築いている

DeepSeekの背景と戦略

  • CEOのLiang Wenfengは、かつて中国4大ヘッジファンドの1つであるHigh-Flyerの創業者であり、DeepSeekはこの会社から全面的な支援を受けている
  • 商業的な応用よりも基盤技術の開発に焦点を当て、すべてのモデルをオープンソースとして公開する戦略を採用
  • High-Flyerのコンピューティングクラスターにアクセス可能で、約5万基以上のHopper GPUを保有
  • AGI(汎用人工知能)の開発に焦点を当てている。研究は、ゲームチェンジャーになり得る構造的・アルゴリズム的イノベーションに集中している

主な技術的イノベーション

  • モデルアーキテクチャの改善
    • MLA (Multi-head Latent Attention): メモリ使用量を従来比5〜13%水準まで削減
    • DeepSeekMoE (Sparse Mixture of Experts): 計算コストを大幅に削減
  • 価格競争を誘発
    • DeepSeek V2モデルは、100万トークンあたり1 RMBの推論コストを提示し、中国の大手テック企業を中心に大規模な価格競争を引き起こした
  • 国際的評価
    • DeepSeekの論文は「今年最高の論文の1つ」と評価され、シリコンバレーや国際的なAIコミュニティでも称賛を受けている

DeepSeekの研究哲学と組織文化

  • 技術的理想主義: DeepSeekは技術的理想主義を追求し、「正しいか間違っているか」を「利益と損失」より優先する。これは中国の技術業界では珍しい声だ
  • イノベーションの重要性: DeepSeekは、中国が単に追随する立場にとどまらず、グローバルな技術革新の流れに参加すべきだと考えている
  • 自律的な組織文化: トップダウン型の管理ではなく、自律的で創造的な雰囲気を志向している。研究者は自分のアイデアに沿って自由に協業し、リソースを活用できる
  • 人材採用: 伝統的な基準よりも好奇心と情熱を重視し、チームの大半は現地大学の卒業生と若手研究者で構成されている

AGIに対するビジョン

  • 研究の焦点: DeepSeekは数学、コード生成、マルチモダリティ、自然言語理解を中心に、AGI実現の可能性を探っている。
  • 今後の見通し:
    • AGIの実現は2年から10年以内に可能になると予想されており、数学とコードはAGIテストにとって理想的な舞台と評価されている
    • 大規模モデルの最終局面では、基盤モデルとサービスを提供する専門企業がサプライチェーンの各ノードで幅広い専門化を進めることになる

オープンソースとイノベーションに対する見解

  • オープンソースの価値: DeepSeekは、技術的優位性をクローズドソースに求めるのではなく、技術エコシステムを構築し発展させることに価値を置いている
  • 中国AIエコシステムに対するビジョン: 中国が応用イノベーションを超えて、0から1への技術的イノベーションを実現することに貢献しようとしている

結論

  • DeepSeekは従来の中国AIスタートアップとは異なる道を歩んでいる
  • 商業的応用よりも技術革新とAGI実現に注力し、グローバルな技術革新の流れに加わろうとしている
  • このようなアプローチは、今後の中国AIの発展方向に重要な影響を与えるとみられる

2件のコメント

 
GN⁺ 2025-01-01
Hacker Newsの意見
  • GPUの制限が、中国の開発者に対して、より革新的に、より少ない資源でより多くを実現する環境を生み出している

    • Deepseekチームを称賛
  • Deepseekへの称賛は興味深い

    • Deepseekが他のモデルを大きく上回れない構造的かつ根本的な理由がある
      • 米中貿易戦争によって、Deepseekの計算資源の利用可能性が不利になる可能性がある
      • 中国の検閲が、Deepseekのデータ収集と出力にある程度の制約を与えている
      • Deepseekはオープンソースなので、他のモデルが容易に複製できる
    • Gemini、ChatGPT、Deepseek、Claudieを定期的に使っているが、Deepseekは他のモデルより特別に優れているわけでも劣っているわけでもない
    • DeepseekがLLM分野を完全に支配すると思われている理由を知りたい
  • 中国は経済発展とともに貢献者になるべきだと考えている

    • 過去30年間、ITイノベーションに実質的に参加してこなかった
    • ムーアの法則に依存し、より良いハードウェアとソフトウェアを待つ形でスケーリング則に向き合ってきた
  • Deepseekは昨年からオープンソースLLMコミュニティで際立った存在だった

    • 他の中国LLMプレイヤーと比べてマーケティング費用が少ない
  • 旧来の記号的AIと現代のML版を組み合わせることへの言及がないのは驚き

  • 中国にはGPU依存を断ち切るための純粋研究を行う強いインセンティブがある

    • 科学のために互いの数学者を攻撃し合うようなことがないことを願う
  • APIが安い理由の1つは、APIデータを学習に使うと明記していたからである

    • OpenAIとClaudeは、APIを利用した場合はデータを学習に使わないとしている
  • AI企業間の競争が健全に続くことを願う

    • 技術や論文を引き続き共有し、全体としてより良くなることを期待する
  • DeepSeekが10倍少ない資源でo1とClaudeに匹敵する成果を出したのは印象的だ

    • より良いアルゴリズムとアプローチがMLの次の段階に必要だ
  • "catfish"という単語の興味深い(誤った)使い方

    • 一般的に理解されている用法とは異なる