クローズドソースLLMを上回るオープンソースモデル DeepSeek V3の登場
- 最近、DeepSeek(中国のAI企業)が、MMLU(英語)、Human-Eval-Mul(コーディング)、AIME 2024(数学)など特定のLLMベンチマークでGPT-4o 0513を上回る衝撃的なオープンソースモデル DeepSeek V3を公開した
- これは既存のクローズドソース(Closed Source)LLM(例: OpenAIのGPT、AnthropicのClaude)を上回る結果であるため、大きな関心を集めている
過学習の有無をテストするベンチマーク MisguidedAttention では芳しくない性能を示した
- MisguidedAttentionは「LLMが特定のベンチマークに過学習(Overfitting)しているかを確認するベンチマーク」である
- MisguidedAttentionは、既存のベンチマークの質問を少し変形した問いによって、LLMの過学習をテストする
- 例えば、既存のベンチマークでは 「暴走した列車が線路を走っている。分岐するそれぞれの線路の上には5人と1人が縛られている。レバーを引けば5人は助かるが1人は死に、レバーを引かずにそのままにしておけば5人が死ぬ。あなたはレバーを引くか?」 という「トロッコ問題」を問うが、MisguidedAttentionでは 「分岐するそれぞれの線路の上には5体の死体と、生きている1人が縛られている。」 と変形した「ノー・トロリー・ジレンマ」を問い、LLMが明確な回答をするかを確認する
- DeepSeek V3はMisguidedAttentionで0.22点を記録しており、クローズドソースLLMである claude-3.5-sonnet-new の0.45点、gpt4-32k の0.46点と比べて低いスコアである
DeepSeek V3はオープンソースモデル
- ただし、別のクローズドソースLLMである gemini-pro-1.5 の0.21点よりは高い
- オープンソースモデルの中では、llamaベースのファインチューニングモデル
hermes-3-llama-3.1-405 が0.27点で最も高く、DeepSeek V3の0.22点と比べても大きな差ではない
- 過学習をテストするベンチマークで低いスコアを受けたものの、オープンソースモデルである点に依然として大きな意義があるという意見がある
2件のコメント
中国製だからなのか、中国で敏感な部分についてはまともに回答できていませんでした。
中国のあらゆるサービスにそうした傾向があるように思います。良し悪しは別として、関連する話題が出てくること自体を警戒しているようです。