1 ポイント 投稿者 GN⁺ 2025-01-29 | 1件のコメント | WhatsAppで共有
  • Qwen2.5-Maxは、20兆(20T)を超えるトークンで事前学習された大規模Mixture-of-Experts(MoE)モデル
  • Supervised Fine-Tuning(SFT)および人間のフィードバックを活用した強化学習(RLHF)によって追加学習を実施
  • DeepSeek V3、GPT-4o、Claude-3.5-Sonnet、Llama-3.1-405Bなどと比較した大半のベンチマークで卓越した性能を示し、優位に立つ
    • Arena-Hard、LiveBench、LiveCodeBench、GPQA-DiamondなどでDeepSeek V3を上回り、MMLU-Proでも競争力のある結果を示す。

主なベンチマーク結果

  • Arena-Hard: 人間の選好を近似した評価
    Qwen2.5-Maxは89.4点を記録し、最も高い性能を示した。DeepSeek V3(85.5点)、GPT-4o(85.2点)、Claude-3.5-Sonnet(77.9点)を上回る。Llama-3.1-405Bは69.3点で、相対的に低い性能を示した。
  • MMLU-Pro: 大学レベルの知識評価
    Qwen2.5-Maxは76.1点で、DeepSeek V3(75.9点)とほぼ同等の性能を示した。GPT-4o(78.0点)がやや高いものの、Qwen2.5-MaxはClaude-3.5-Sonnet(77.0点)、Llama-3.1-405B(73.3点)を上回る。
  • GPQA-Diamond: 一般的な質問応答能力の評価
    Qwen2.5-Maxは60.1点で、DeepSeek V3(59.1点)をわずかに上回る一方、GPT-4o(53.6点)、Claude-3.5-Sonnet(51.1点)より高く、Llama-3.1-405B(65.0点)よりはやや低い。
  • LiveCodeBench: コーディング能力の評価
    Qwen2.5-Maxは38.7点を記録し、DeepSeek V3(37.6点)よりやや高い。GPT-4o(35.1点)、Claude-3.5-Sonnet(30.2点)を上回り、Llama-3.1-405B(38.9点)と近い水準。
  • LiveBench: 全体的なモデル性能の評価
    Qwen2.5-Maxは62.2点で最高スコアを記録。DeepSeek V3(60.5点)、GPT-4o(60.3点)、Claude-3.5-Sonnet(56.0点)、Llama-3.1-405B(53.2点)より優れた性能を示した。

今後の方向性

  • データとモデル規模の拡大はモデル知能の発展を示しており、大規模言語モデルの思考および推論能力を向上させるための研究に注力している
  • 強化学習の革新的な適用を通じて、人間の知能を超えるモデルを開発し、新たな知識と理解の領域を探求する可能性を切り開く