- DeepSeekは中国のAIスタートアップで、最近発表したR1モデルが複数の推論ベンチマークでOpenAIのo1モデルを上回った
- 知名度は低いものの、注目に値するAI研究所として地位を築いている
DeepSeekの背景と戦略
- CEOのLiang Wenfengは、かつて中国4大ヘッジファンドの1つであるHigh-Flyerの創業者であり、DeepSeekはこの会社から全面的な支援を受けている
- 商業的な応用よりも基盤技術の開発に焦点を当て、すべてのモデルをオープンソースとして公開する戦略を採用
- High-Flyerのコンピューティングクラスターにアクセス可能で、約5万基以上のHopper GPUを保有
- AGI(汎用人工知能)の開発に焦点を当てている。研究は、ゲームチェンジャーになり得る構造的・アルゴリズム的イノベーションに集中している
主な技術的イノベーション
- モデルアーキテクチャの改善
- MLA (Multi-head Latent Attention): メモリ使用量を従来比5〜13%水準まで削減
- DeepSeekMoE (Sparse Mixture of Experts): 計算コストを大幅に削減
- 価格競争を誘発
- DeepSeek V2モデルは、100万トークンあたり1 RMBの推論コストを提示し、中国の大手テック企業を中心に大規模な価格競争を引き起こした
- 国際的評価
- DeepSeekの論文は「今年最高の論文の1つ」と評価され、シリコンバレーや国際的なAIコミュニティでも称賛を受けている
DeepSeekの研究哲学と組織文化
- 技術的理想主義: DeepSeekは技術的理想主義を追求し、「正しいか間違っているか」を「利益と損失」より優先する。これは中国の技術業界では珍しい声だ
- イノベーションの重要性: DeepSeekは、中国が単に追随する立場にとどまらず、グローバルな技術革新の流れに参加すべきだと考えている
- 自律的な組織文化: トップダウン型の管理ではなく、自律的で創造的な雰囲気を志向している。研究者は自分のアイデアに沿って自由に協業し、リソースを活用できる
- 人材採用: 伝統的な基準よりも好奇心と情熱を重視し、チームの大半は現地大学の卒業生と若手研究者で構成されている
AGIに対するビジョン
- 研究の焦点: DeepSeekは数学、コード生成、マルチモダリティ、自然言語理解を中心に、AGI実現の可能性を探っている。
- 今後の見通し:
- AGIの実現は2年から10年以内に可能になると予想されており、数学とコードはAGIテストにとって理想的な舞台と評価されている
- 大規模モデルの最終局面では、基盤モデルとサービスを提供する専門企業がサプライチェーンの各ノードで幅広い専門化を進めることになる
オープンソースとイノベーションに対する見解
- オープンソースの価値: DeepSeekは、技術的優位性をクローズドソースに求めるのではなく、技術エコシステムを構築し発展させることに価値を置いている
- 中国AIエコシステムに対するビジョン: 中国が応用イノベーションを超えて、0から1への技術的イノベーションを実現することに貢献しようとしている
結論
- DeepSeekは従来の中国AIスタートアップとは異なる道を歩んでいる
- 商業的応用よりも技術革新とAGI実現に注力し、グローバルな技術革新の流れに加わろうとしている
- このようなアプローチは、今後の中国AIの発展方向に重要な影響を与えるとみられる
2件のコメント
Deepseek V3は、過学習かどうかをテストするベンチマークで良くない性能を示した
Hacker Newsの意見
GPUの制限が、中国の開発者に対して、より革新的に、より少ない資源でより多くを実現する環境を生み出している
Deepseekへの称賛は興味深い
中国は経済発展とともに貢献者になるべきだと考えている
Deepseekは昨年からオープンソースLLMコミュニティで際立った存在だった
旧来の記号的AIと現代のML版を組み合わせることへの言及がないのは驚き
中国にはGPU依存を断ち切るための純粋研究を行う強いインセンティブがある
APIが安い理由の1つは、APIデータを学習に使うと明記していたからである
AI企業間の競争が健全に続くことを願う
DeepSeekが10倍少ない資源でo1とClaudeに匹敵する成果を出したのは印象的だ
"catfish"という単語の興味深い(誤った)使い方