Qwen2.5 - 複数のファウンデーションモデルを公開

xguru · 2024-09-20T11:22:54+09:00

Qwen2.5 には、LLM の Qwen2.5、コーディング向けの Qwen2.5-Coder、数学向けの Qwen2.5-Math などの特化モデルが含まれるすべてのオープンウェイトモデルは dense decoder-only 言語モデルで、0.5B から 72B までさまざまなサイズで提供される 3B と 72B モデルを除くすべてのオープンソースモデルは Apache 2.0 ライセンスで提供されるフラッグシップ言語モデルの Qwen-Plus と Qwen-Turbo は Model Studio を通じて API として提供される Qwen2-VL-72B もオープンソースとして公開され、先月のバージョンより性能が向上した Qwen2.5 の特徴最大 18兆トークンの大規模データセットで事前学習されており、Qwen2 と比べて知識が大幅に増加した（MMLU: 85+）コーディング（HumanEval 85+）と数学（MATH 80+）の能力も大きく向上した命令追従、長文生成（8K トークン以上）、構造化データの理解（例: テーブル）、JSON などの構造化出力生成能力が大幅に改善されたシステムプロンプトの多様性に対してより堅牢になり、チャットボットの役割遂行や条件設定が容易になった Qwen2 と同様に、Qwen2.5 言語モデルは最大 128K トークンをサポートし、最大 8K トークンを生成できる中国語、英語、フランス語、スペイン語、ポルトガル語、ドイツ語、イタリア語、ロシア語、日本語、韓国語、ベトナム語、タイ語、アラビア語など 29 以上の言語をサポートする性能 Qwen2.5 最大のオープンソースモデルである Qwen2.5-72B（72B パラメータの dense decoder-only 言語モデル）の性能を、Llama-3.1-70B、Mistral-Large-V2 など主要なオープンソースモデルと比較しているさまざまなベンチマークで命令チューニング版の包括的な結果を提示し、モデル能力と人間の選好の両方を評価している命令チューニング済み言語モデルに加え、Qwen2.5-72B の base 言語モデルも Llama-3-405B のようなより大規模なモデルと比較して最高水準の性能を示す API ベースモデルである Qwen-Plus の最新版を、GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B、DeepSeek-V2.5 など著名なプロプライエタリおよびオープンソースモデルと比較している Qwen-Plus は DeepSeek-V2.5 を大きく上回り、Llama-3.1-405B と同等の性能を示すが、一部の面では GPT4-o や Claude-3.5-Sonnet には及ばない Qwen2.5-14B と Qwen2.5-32B を再導入した。これらのモデルは、Phi-3.5-MoE-Instruct、Gemma2-27B-IT のような同程度またはより大きなサイズの基準モデルを上回る API ベースモデル Qwen-Turbo は、合理的な価格で高速なサービスを提供し、2 つのオープンソースモデルと比べても非常に競争力のある性能を示す Qwen2.5-3B は約 30 億パラメータで非常に印象的な性能を発揮し、前バージョンと比べて効率性と能力に優れるベンチマーク評価の改善に加えて、事後学習の方法論も改善した。4 つの主要アップデートは、最大 8K トークンまでの長文生成対応、構造化データ理解力の大幅向上、JSON 形式などの構造化出力生成の信頼性向上、多様なシステムプロンプトでの性能向上による役割遂行支援である Qwen2.5-Coder CodeQwen1.5 のリリース以降、デバッグ、コーディング関連の質問応答、コード提案など、さまざまなコーディング作業でこのモデルに依存するユーザーが増えている最新版の Qwen2.5-Coder は、コーディングアプリケーション向けに特別に設計されている小型でありながら、さまざまなプログラミング言語やタスクでより大規模な言語モデルを上回るなど、優れたコーディング能力を示す Qwen2.5-Math 先月、初の数学専用言語モデル Qwen2-Math をリリースしたが、Qwen2.5-Math は Qwen2-Math が生成した合成データを含む、より大規模な数学関連データで事前学習されている今回は中国語サポートを拡張し、CoT、PoT、TIR の実行能力を付与して推論能力も強化した Qwen2.5-Math-72B-Instruct の総合的な性能は Qwen2-Math-72B-Instruct と GPT4-o を上回り、Qwen2.5-Math-1.5B-Instruct のような非常に小型の専門モデルでさえ、大規模言語モデルと比べて非常に競争力のある性能を発揮できる Qwen2.5 で開発する Qwen2.5 を vLLM と一緒に使うには、次のコマンドで OpenAI API 互換サービスをデプロイできる: Qwen2.5 は vllm の組み込み tool calling をサポートする。この機能には vllm>=0.6 が必要 Qwen2.5 は Ollama の tool calling もサポートする Hugging Face の transformers における tool calling サポートも利用可能以前から Qwen-Agent は Qwen2 独自の tool calling テンプレートを使って tool calling をサポートしており、Qwen2.5 は Qwen2 テンプレートおよび Qwen-Agent との互換性も維持している今後の計画は？同時に多くの高品質モデルをリリースできたことをうれしく思う一方で、依然として重大な課題が残っていることも認識している最近のリリースを通じて、言語、視覚言語、音声言語の領域で強力な基盤モデルの開発に取り組んでいることを示しているしかし、これらの多様なモダリティを 1 つのモデルに統合し、あらゆる領域の情報をシームレスに処理できるようにすることが重要であるデータスケーリングによって推論能力を向上させてきたが、最近の強化学習の進展にも着想を得て、inference compute のスケーリングによってモデルの推論能力をさらに高めることに注力している

(qwenlm.github.io)

7 ポイント投稿者 xguru 2024-09-20 | 1件のコメント | WhatsAppで共有

Qwen2.5 には、LLM の Qwen2.5、コーディング向けの Qwen2.5-Coder、数学向けの Qwen2.5-Math などの特化モデルが含まれる
すべてのオープンウェイトモデルは dense decoder-only 言語モデルで、0.5B から 72B までさまざまなサイズで提供される
3B と 72B モデルを除くすべてのオープンソースモデルは Apache 2.0 ライセンスで提供される
フラッグシップ言語モデルの Qwen-Plus と Qwen-Turbo は Model Studio を通じて API として提供される
Qwen2-VL-72B もオープンソースとして公開され、先月のバージョンより性能が向上した

Qwen2.5 の特徴

最大 18兆 トークンの大規模データセットで事前学習されており、Qwen2 と比べて知識が大幅に増加した（MMLU: 85+）
コーディング（HumanEval 85+）と数学（MATH 80+）の能力も大きく向上した
命令追従、長文生成（8K トークン以上）、構造化データの理解（例: テーブル）、JSON などの構造化出力生成能力が大幅に改善された
システムプロンプトの多様性に対してより堅牢になり、チャットボットの役割遂行や条件設定が容易になった
Qwen2 と同様に、Qwen2.5 言語モデルは最大 128K トークンをサポートし、最大 8K トークンを生成できる
中国語、英語、フランス語、スペイン語、ポルトガル語、ドイツ語、イタリア語、ロシア語、日本語、韓国語、ベトナム語、タイ語、アラビア語など 29 以上の言語をサポートする

性能

Qwen2.5

最大のオープンソースモデルである Qwen2.5-72B（72B パラメータの dense decoder-only 言語モデル）の性能を、Llama-3.1-70B、Mistral-Large-V2 など主要なオープンソースモデルと比較している
さまざまなベンチマークで命令チューニング版の包括的な結果を提示し、モデル能力と人間の選好の両方を評価している
命令チューニング済み言語モデルに加え、Qwen2.5-72B の base 言語モデルも Llama-3-405B のようなより大規模なモデルと比較して最高水準の性能を示す
API ベースモデルである Qwen-Plus の最新版を、GPT4-o、Claude-3.5-Sonnet、Llama-3.1-405B、DeepSeek-V2.5 など著名なプロプライエタリおよびオープンソースモデルと比較している
- Qwen-Plus は DeepSeek-V2.5 を大きく上回り、Llama-3.1-405B と同等の性能を示すが、一部の面では GPT4-o や Claude-3.5-Sonnet には及ばない
Qwen2.5-14B と Qwen2.5-32B を再導入した。これらのモデルは、Phi-3.5-MoE-Instruct、Gemma2-27B-IT のような同程度またはより大きなサイズの基準モデルを上回る
API ベースモデル Qwen-Turbo は、合理的な価格で高速なサービスを提供し、2 つのオープンソースモデルと比べても非常に競争力のある性能を示す
Qwen2.5-3B は約 30 億パラメータで非常に印象的な性能を発揮し、前バージョンと比べて効率性と能力に優れる
ベンチマーク評価の改善に加えて、事後学習の方法論も改善した。4 つの主要アップデートは、最大 8K トークンまでの長文生成対応、構造化データ理解力の大幅向上、JSON 形式などの構造化出力生成の信頼性向上、多様なシステムプロンプトでの性能向上による役割遂行支援である

Qwen2.5-Coder

CodeQwen1.5 のリリース以降、デバッグ、コーディング関連の質問応答、コード提案など、さまざまなコーディング作業でこのモデルに依存するユーザーが増えている
最新版の Qwen2.5-Coder は、コーディングアプリケーション向けに特別に設計されている
小型でありながら、さまざまなプログラミング言語やタスクでより大規模な言語モデルを上回るなど、優れたコーディング能力を示す

Qwen2.5-Math

先月、初の数学専用言語モデル Qwen2-Math をリリースしたが、Qwen2.5-Math は Qwen2-Math が生成した合成データを含む、より大規模な数学関連データで事前学習されている
今回は中国語サポートを拡張し、CoT、PoT、TIR の実行能力を付与して推論能力も強化した
Qwen2.5-Math-72B-Instruct の総合的な性能は Qwen2-Math-72B-Instruct と GPT4-o を上回り、Qwen2.5-Math-1.5B-Instruct のような非常に小型の専門モデルでさえ、大規模言語モデルと比べて非常に競争力のある性能を発揮できる

Qwen2.5 で開発する

Qwen2.5 を vLLM と一緒に使うには、次のコマンドで OpenAI API 互換サービスをデプロイできる:
Qwen2.5 は vllm の組み込み tool calling をサポートする。この機能には vllm>=0.6 が必要
Qwen2.5 は Ollama の tool calling もサポートする
Hugging Face の transformers における tool calling サポートも利用可能
以前から Qwen-Agent は Qwen2 独自の tool calling テンプレートを使って tool calling をサポートしており、Qwen2.5 は Qwen2 テンプレートおよび Qwen-Agent との互換性も維持している

今後の計画は？

同時に多くの高品質モデルをリリースできたことをうれしく思う一方で、依然として重大な課題が残っていることも認識している
最近のリリースを通じて、言語、視覚言語、音声言語の領域で強力な基盤モデルの開発に取り組んでいることを示している
しかし、これらの多様なモダリティを 1 つのモデルに統合し、あらゆる領域の情報をシームレスに処理できるようにすることが重要である
データスケーリングによって推論能力を向上させてきたが、最近の強化学習の進展にも着想を得て、inference compute のスケーリングによってモデルの推論能力をさらに高めることに注力している

1件のコメント

xguru 2024-09-20

Alibaba、オープンソースAIモデル QWEN を公開
 Alibaba、Qwen 2 モデルを公開