DeepSeek V3は過学習の有無をテストするベンチマークで芳しくない性能を示した

jhj0517 · 2024-12-31T16:03:36+09:00

クローズドソースLLMを上回るオープンソースモデル DeepSeek V3の登場最近、DeepSeek（中国のAI企業）が、MMLU（英語）、Human-Eval-Mul（コーディング）、AIME 2024（数学）など特定のLLMベンチマークでGPT-4o 0513を上回る衝撃的なオープンソースモデル DeepSeek V3を公開したこれは既存のクローズドソース（Closed Source）LLM（例: OpenAIのGPT、AnthropicのClaude）を上回る結果であるため、大きな関心を集めている過学習の有無をテストするベンチマーク MisguidedAttention では芳しくない性能を示した MisguidedAttentionは「LLMが特定のベンチマークに過学習（Overfitting）しているかを確認するベンチマーク」である MisguidedAttentionは、既存のベンチマークの質問を少し変形した問いによって、LLMの過学習をテストする例えば、既存のベンチマークでは「暴走した列車が線路を走っている。分岐するそれぞれの線路の上には5人と1人が縛られている。レバーを引けば5人は助かるが1人は死に、レバーを引かずにそのままにしておけば5人が死ぬ。あなたはレバーを引くか？」という「トロッコ問題」を問うが、MisguidedAttentionでは「分岐するそれぞれの線路の上には5体の死体と、生きている1人が縛られている。」と変形した「ノー・トロリー・ジレンマ」を問い、LLMが明確な回答をするかを確認する DeepSeek V3はMisguidedAttentionで0.22点を記録しており、クローズドソースLLMである claude-3.5-sonnet-new の0.45点、gpt4-32k の0.46点と比べて低いスコアである DeepSeek V3はオープンソースモデルただし、別のクローズドソースLLMである gemini-pro-1.5 の0.21点よりは高いオープンソースモデルの中では、llamaベースのファインチューニングモデル hermes-3-llama-3.1-405 が0.27点で最も高く、DeepSeek V3の0.22点と比べても大きな差ではない過学習をテストするベンチマークで低いスコアを受けたものの、オープンソースモデルである点に依然として大きな意義があるという意見がある

(github.com/cpldcpu)

2 ポイント投稿者 jhj0517 2024-12-31 | 2件のコメント | WhatsAppで共有

クローズドソースLLMを上回るオープンソースモデル DeepSeek V3の登場

最近、DeepSeek（中国のAI企業）が、MMLU（英語）、Human-Eval-Mul（コーディング）、AIME 2024（数学）など特定のLLMベンチマークでGPT-4o 0513を上回る衝撃的なオープンソースモデル DeepSeek V3を公開した
これは既存のクローズドソース（Closed Source）LLM（例: OpenAIのGPT、AnthropicのClaude）を上回る結果であるため、大きな関心を集めている

過学習の有無をテストするベンチマーク MisguidedAttention では芳しくない性能を示した

MisguidedAttentionは「LLMが特定のベンチマークに過学習（Overfitting）しているかを確認するベンチマーク」である
MisguidedAttentionは、既存のベンチマークの質問を少し変形した問いによって、LLMの過学習をテストする
例えば、既存のベンチマークでは「暴走した列車が線路を走っている。分岐するそれぞれの線路の上には5人と1人が縛られている。レバーを引けば5人は助かるが1人は死に、レバーを引かずにそのままにしておけば5人が死ぬ。あなたはレバーを引くか？」という「トロッコ問題」を問うが、MisguidedAttentionでは 「分岐するそれぞれの線路の上には5体の死体と、生きている1人が縛られている。」 と変形した「ノー・トロリー・ジレンマ」を問い、LLMが明確な回答をするかを確認する
DeepSeek V3はMisguidedAttentionで0.22点を記録しており、クローズドソースLLMである claude-3.5-sonnet-new の0.45点、gpt4-32k の0.46点と比べて低いスコアである

DeepSeek V3はオープンソースモデル

ただし、別のクローズドソースLLMである gemini-pro-1.5 の0.21点よりは高い
オープンソースモデルの中では、llamaベースのファインチューニングモデル hermes-3-llama-3.1-405 が0.27点で最も高く、DeepSeek V3の0.22点と比べても大きな差ではない
過学習をテストするベンチマークで低いスコアを受けたものの、オープンソースモデルである点に依然として大きな意義があるという意見がある

2件のコメント

dohyun682 2024-12-31

中国製だからなのか、中国で敏感な部分についてはまともに回答できていませんでした。

jhj0517 2024-12-31

中国のあらゆるサービスにそうした傾向があるように思います。良し悪しは別として、関連する話題が出てくること自体を警戒しているようです。

DeepSeek V3は過学習の有無をテストするベンチマークで芳しくない性能を示した

クローズドソースLLMを上回るオープンソースモデル DeepSeek V3の登場

過学習の有無をテストするベンチマーク MisguidedAttention では芳しくない性能を示した

DeepSeek V3はオープンソースモデル

関連記事

2件のコメント