OpenAI、DeepSeekが自社モデルの訓練に利用した証拠を確保したと発表

(ft.com)

5 ポイント投稿者 GN⁺ 2025-01-30 | 2件のコメント | WhatsAppで共有

OpenAIは、中国のAIスタートアップDeepSeekが自社の独自モデルを使って、オープンソースの競合モデルを訓練した証拠を発見したとFinancial Timesに明らかにした
DeepSeekは、大規模モデルの出力を活用して小規模モデルを効率的に訓練する「知識蒸留（distillation）」の手法を用いたと疑われている
蒸留はAI業界で一般的な手法だが、OpenAIは、DeepSeekがこれを利用して独自モデルを開発したことは自社の利用規約違反にあたると主張
OpenAIの規約によれば、ユーザーはOpenAIの出力をコピーしたり、それを使って競合モデルを開発したりすることはできない

DeepSeekのモデル性能と市場の反応

DeepSeekのR1推論モデルの公開は、テック業界と投資家を驚かせた
DeepSeekは、比較的低コストで高性能なモデルを構築し、業界の注目を集めている
Nvidiaの株価は月曜日に17%下落し、5,890億ドルの時価総額が消失したが、火曜日には9%反発した
Nvidia下落の原因は、AIハードウェア需要の減少懸念によるもの

OpenAIとMicrosoftの対応

OpenAIとMicrosoftは昨年、DeepSeekがOpenAIのAPIを使って蒸留を試みたと疑われるアカウントを調査し、停止した
これに関する最初の報道はBloombergが伝えた
Microsoftはこれについてコメントを避け、OpenAIも追加のコメントを拒否した

専門家の見解

トランプ前政権でAIと暗号資産を担当したDavid Sacksは、「知的財産の窃取があった可能性がある」と主張
一部のAI研究者は、DeepSeekのモデルにGPT-4の出力を学習した痕跡が見られると分析している
UC BerkeleyのAI博士課程研究員Ritwik Guptaは、AI業界では商用LLMの出力を活用してモデルを訓練することが一般的な慣行だと説明

OpenAIの対応と今後の見通し

OpenAIは、中国を含む複数の企業が米国のAI企業のモデルを蒸留しようとしていると警告
知的財産の保護のため、モデルの最先端機能の公開は慎重に判断しており、技術流出を防ぐために米国政府と協力することが重要だと強調
ただしOpenAI自身も、The New York Timesをはじめとする報道機関や著作権者から無断データ利用の疑いで提訴されるなど、自社の著作権問題にも直面している

2件のコメント

botplaysdice 2025-02-01

OpenAIはニューヨーク・タイムズと係争中ですが、こうなるとDeepSeekはその訴訟とは無関係ということになるのでしょうか？ :)

GN⁺ 2025-01-30

Hacker Newsの意見

DeepSeekがOpenAIのデータを使って学習したのは不公正だという主張がある一方で、OpenAIもインターネット上のデータを収集して学習していることを考えると、この主張は不適切だという意見
- DeepSeekがo1レベルの性能をゼロから再現したと主張するのは事実ではない可能性があり、これは学習効率への疑問を提起する
- DeepSeekのR1論文は蒸留が非常に強力であることを示しており、もしDeepSeekがo1の出力を使ってモデルを学習させたのであれば、これは学習効率への疑問を提起しうる
DeepSeekのオープンソース化とMITライセンスでの公開は、優秀な人材を集める大きなきっかけになるだろうという意見
- 新しい技術のオープンソース化は、過去においても常に発展を牽引してきた
- OpenAIはIP保護のために米国政府と協力しており、DeepSeekがTikTokのように禁止される可能性もある
r1はo1以後の世界で作られており、ほかのモデルがr1を蒸留できる状況にある
- o1から蒸留したとしても、DeepSeekのコストに関する主張が弱まるわけではないという意見
- OpenAIが道徳的または倫理的優位性を持っているのかという疑問
DeepSeekがOpenAIから学習していたのだとすれば、それは"pennies on the dollar"でゼロから学習されたものではなく、技術的ブレークスルーではない可能性がある
- これはまだ事実かどうか確認されていない
OpenAIは現在弱い立場にあり、GoogleやMicrosoftのように法的資源を活用することはできない
- OpenAIが法的問題で競合を抑え込む戦略は効果的ではないだろうという意見
鉄道産業と同様に、AIでも競争がコストを下げ、多くの投資は大きな富を生み出せない可能性がある
- Nvidia、OpenAI、DeepSeekなどの大企業がAIに投資しているが、実質的な収益を生み出せないかもしれない
OpenAIがコンテンツを無断で使用し、AI中毒スクリプトを回避するために多額の費用を支出していることへの批判
- DeepSeekがOpenAIのデータを再利用したのだとすれば、それは工学的ブレークスルーではないという意見
OpenAIのモデルは、個人の電子書籍Torrentトラッカーから大量に収集された電子書籍を基に学習されていた
- 電子書籍はepub形式に変換・整理され、公開データ保存所でホスティングされていた

OpenAI、DeepSeekが自社モデルの訓練に利用した証拠を確保したと発表

DeepSeekのモデル性能と市場の反応

OpenAIとMicrosoftの対応

専門家の見解

OpenAIの対応と今後の見通し

関連記事

2件のコメント

Hacker Newsの意見