41 ポイント 投稿者 xguru 2025-01-25 | 5件のコメント | WhatsAppで共有
  • すでにベンチマークでLlama 4を上回ったDeepSeek V3のため
  • しかも「よく知られていない中国企業が、わずか5.5Mの学習コスト」を使ったとされ、さらに衝撃が広がっている
  • エンジニアたちはDeepSeekを徹底的に解析し、可能な限りあらゆるものを模倣するために狂ったように動いている
  • 経営陣は生成AI組織にかかる莫大なコストを正当化することに頭を悩ませている
  • 生成AI組織の「リーダー」1人が、DeepSeek v3の学習コスト全体よりも多くの報酬を受け取っており、そのようなリーダーが何十人もいる
  • DeepSeek r1はさらに恐ろしい。機密情報は明かせないが、まもなく公開されるはず
  • エンジニアリングは小規模な組織であるべきだったが、多くの人がこのImpact Grabに参加したがり、組織が採用を人為的に膨らませたことが、結果的に全員にとって害になった

コメント

  • Google社員1 : DeepSeekがやっていることは本当にすごい。Metaだけでなく、OpenAI、Google、Anthropicの尻に火をつけている。良い点は、オープンな競争がイノベーションにどれほど効果的かをリアルタイムで確認できることだ。
  • Apple社員1 : これが私がMeta株を保有している理由。競合を分析し模倣して勝つことは、あなたたちのDNAに組み込まれている。これからも頑張って!
  • Meta社員1 : 多くの経営陣は基盤技術について文字通り何も分かっておらず(多くはエンジニアリングの知識さえない)、他の経営陣に「より多くのGPU = 勝利」をひたすら吹き込んでいる。参加を促すためにInstagramでAIコンテンツを生成するようなばかなアイデアを出して、状況をさらに歪めている(現在はやや後退している)。
  • Meta社員2 : いっそDeepSeekを買収してしまえ
  • Samsung社員1 : Sam Altmanは詐欺師だ。DeepSeekのCEOであるLIANG WenfengはIlya Sutskeverであり、DeepSeekは昔のOpenAIで、OpenAIはClosedAIだ。
  • Google社員2 : DeepSeekは新しいRLベースモデルのすべての構成要素を説明する論文を書いており、それによってMetaのような企業は直接コピーして検証できる
  • Meta社員3 : Metaのように「世界最大のGPUクラスター」を持つ組織が、どうしてベンチマークのトップ10にも入れないのか? Grokは近いうちにDeepSeekを上回るだろう
  • Meta社員4 : DeepSeekは中国に統制されており、実際のデータを共有せず、中国共産党によって厳しく検閲されている。「中国共産党は人々の自由を制限しているか」と聞けば答えが分かる。何を聞いても「中国がどれほど偉大か」といったことばかり繰り返す。情報はなく、ただ主張するだけだ。
  • Chime社員: そして最高なのは、これらすべてをH100の性能に近くないH800 GPUで実行していることだ。本当にすごい。DeepSeekの皆さんに敬意と称賛を送る。中国から出たResidual Network論文は、ニューラルネットワークを完全に変え、数十億のパラメータを使えることを教えてくれた画期的な論文だった。非常に難しい問題を解決した中国の人々を尊敬する!
  • Blizzard社員: これによって、AI時代には堀がなく、少なくともクローズドソースモデルと同等、あるいはそれ以上に優れたオープンソースモデルが登場するだろうという希望を持てた。この分野で競争が激しくなるほど、私たちにとっても良いことだ。

5件のコメント

 
jhj0517 2025-01-25

競争するのは良いことだと思います 👏

 
mammal 2025-01-25

イデオロギーや検閲の話はひとまず脇に置くとして、今回のDeepSeekモデル群のエンジニアリング水準は本当に感嘆するレベルですね。

V2.5アーキテクチャで使われていたMLAも天才的な発想だと思っていましたが、今回はMTPの可能性まで実証し、R1でO1モデルの再現にも完璧に成功したうえ、輸出規制でハードウェアが制限された状況でも訓練技術を引き出してみせたのを見ると、本当にすごいです。

MLに関心のある方は、DeepSeek Technical Report V2.5、V3、R1をぜひ読んでみてください。感嘆するしかありません。これをすべてMITライセンスで公開したというのが、いまだに信じられません。

 
mammal 2025-01-25

LLaMA の場合、LLaMA 2 → 3 でアーキテクチャ上の革新がほとんどなく、訓練のスケーリングを増やしただけという印象が強かったのですが、これが前兆だったのだと思います。

 
play1204dev 2025-01-25

あれだけ中国をけん制してGPUの輸出規制までしていたのに、ああいうものを見るとすごいとも思うし怖くもあり、前向きに見れば十分にナマズ役を果たしていると思います。結局、OpenAIが先導していること自体は誰にも否定できないので。