Qwen2.5-Max: 大規模MoEモデルの知能探究

(qwenlm.github.io)

1 ポイント投稿者 GN⁺ 2025-01-29 | 2件のコメント | WhatsAppで共有

Qwen2.5-Maxは、20兆個以上のトークンで事前学習した大規模MoEモデルで、SFTとRLHFによる事後学習を経て Alibaba Cloud API と Qwen Chat で公開された
評価には MMLU-Pro、LiveCodeBench、LiveBench、Arena-Hard が含まれ、instruct モデルはチャットやコーディングのような実際のダウンストリーム利用を中心に比較された
Qwen2.5-Max は Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond で DeepSeek V3 を上回り、MMLU-Pro などでも競争力のある結果を示した
base モデル比較では GPT-4o と Claude-3.5-Sonnet に直接アクセスできないため、DeepSeek V3、Llama-3.1-405B、Qwen2.5-72B が比較対象となった
API モデル名は qwen-max-2025-01-25 で、OpenAI API 互換方式のため既存の OpenAI クライアントベースの呼び出しフローを活用できる

モデル規模とベンチマーク結果

Qwen2.5-Maxは、データ規模とモデル規模の拡大がモデル知能の向上につながりうるという前提のもとで開発された大規模 MoE モデルである
モデルは20兆個以上のトークンで事前学習され、その後、選別された Supervised Fine-Tuning（SFT）と Reinforcement Learning from Human Feedback（RLHF）で事後学習された
性能評価では、主要な知識・コーディング・総合能力ベンチマークを併用している
- MMLU-Pro: 大学レベルの問題による知識評価
- LiveCodeBench: コーディング能力評価
- LiveBench: 一般能力の総合評価
- Arena-Hard: 人間の選好に近い評価
instruct モデルでは Qwen2.5-Max、DeepSeek V3、GPT-4o、Claude-3.5-Sonnet をあわせて比較している
- Qwen2.5-Max は Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond で DeepSeek V3 を上回った
- MMLU-Pro を含む他の評価でも競争力のある結果を示した
base モデル比較では、GPT-4o や Claude-3.5-Sonnet のようなクローズドモデルにアクセスできないため、オープンウェイトモデル中心で評価している
- 比較対象は DeepSeek V3、Llama-3.1-405B、Qwen2.5-72B
- Qwen2.5-Max base モデルは、大半のベンチマークで有意な優位性を示した
今後のバージョンでは、事後学習手法の改善を通じてさらに高い性能を目指す

API 利用と今後の課題

Qwen2.5-Max は Qwen Chat で利用でき、直接チャットしたり、artifacts、search などを使ったりできる
API は Alibaba Cloud を通じて提供される
- モデル名は qwen-max-2025-01-25
- Alibaba Cloud アカウントを登録し、Model Studio サービスを有効化した後、コンソールで API キーを作成できる
Qwen API は OpenAI API 互換の形態であるため、OpenAI クライアントで呼び出し可能である

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1";,
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

今後の取り組みは、拡張された強化学習を適用して大規模言語モデルの思考力と推論能力を高めることに焦点を当てる
Qwen2.5 に関する引用情報は Qwen2.5 technical report の arXiv プレプリント arXiv:2412.15115 である

2件のコメント

GN⁺ 2025-01-29

Hacker News のコメント

DeepSeek V3 が最近公開され、スケーリング過程の重要な詳細がどれほど有用かを示したと言っておきながら、肝心の自分たちの学習情報は公開しないということになる
非公開 APIで追加情報もないなら、「o1 にほぼ近い」という言葉にはあまり関心が湧かない
- 「o1 にほぼ近い」ですらない。比較対象はもっと古い 4oだけ
  Qwen2.5-Max は最近の推論モデル（o1、DeepSeek-R1、Gemini 2.0 Flash Thinking）よりスコアが低いと見てよい
  推論用の強化学習を適用すれば非常に強力なモデルになる可能性はあるが、成功したレシピはいずれも非公開なので時間がかかるかもしれない。その間、ほかのモデルの推論チェーンをもとに教師ありファインチューニング（SFT）はできるだろうが、DeepSeek-R1 の技術報告書でも強化学習ほど良くはないとしていた
HN のトップページに DeepSeek の項目が 3 つあると思っていたら、実は 4 つ目だった。Qwen チームが DeepSeek-V3 より優れているという秘密版 Qwenを持っていると述べる投稿だったため
HN トップページの 20% が同じ話題だったのがいつだったか思い出せない。もちろん NVIDIA が昨日のように時価総額 5,690 億ドルを失った企業というのも、前例がすぐには思い浮かばない
- 4 ÷ 30 が 20% ではないことを見落としていた。実際には 13% に近い。間抜けなミスだった
HuggingFace デモ: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
出典: https://x.com/Alibaba_Qwen/status/1884263157574820053
中国企業が春節の前日にこれを発表したのはかなり驚き。DeepSeek の発表が確実に火をつけたようだ
いま中国のテック企業で何かが進行していること自体が意外
- DeepSeek のエンジニアたちは必要な容量にまったく足りず、必死に障害対応しているはず。競合他社はすでに急いでリリースしたか、準備中だったものをひっそり出すことにしたようだ。みんな相当ハードに働いている雰囲気
- Gemini が Chatbot Arena のランキングで 1 位になったとき、OpenAI が翌日にモデルを出したのに似ている
これは Qwen の新しい最高性能モデルのようで、現在は API 専用。DeepSeek v3 より優れていると言っている
- https://chat.qwenlm.ai/ のモデルセレクターから利用できる
自分の NYT Connections ベンチマークを走らせてみたところ 18.6 点で、Qwen 2.5 72B の 14.8 点から上がっていた。ほかのベンチマークも後で走らせる予定
https://github.com/lechmazur/nyt-connections/
クラウドでの**専門家混合（MoE）**は少し微妙に感じる。ただしデスクトップ級の機材では本当に力を発揮し得る
メモリはどんどん高速化しているので、そう遠くないうちに比較的大きなモデルでも MoE が苦痛なほど遅い、ということはなくなるかもしれない
重みがなければ証拠もない
- OpenAI が新モデルをリリースするときにも同じことを言うのか？
これは推論モデルではない。ベンチマークで DeepSeek V3 に勝ったのなら、推論モデル版は o1 Pro にも勝てるかもしれない

xguru 2025-01-29

2023-08-03 Alibaba、オープンソースAIモデル QWEN を公開
2024-04-25 Qwen1.5-110B : Alibaba のオープンソース LLM Qwen1.5 シリーズ初の 100B+ モデル
2024-06-07 Alibaba、Qwen 2 モデルを公開
2024-09-19 Qwen2.5 - 複数のファウンデーションモデルを公開
2024-11-28 QwQ - ChatGPT o1 に類似した Alibaba の推論 LLM
2024-12-24 Qwen の新しい視覚推論モデル QvQ の使用レビュー
2025-01-27 Qwen2.5-1M - 100万トークンまで対応する Qwen をセルフホストする

DeepSeek が旋風を巻き起こしているなか、Qwen もものすごい結果を1日に1つずつ次々と出していますね。
中国企業は本当にすごいです。

Qwen2.5-Max: 大規模MoEモデルの知能探究

モデル規模とベンチマーク結果

API 利用と今後の課題

関連記事

2件のコメント

Hacker News のコメント