Alibaba、Qwen 2モデルを公開

xguru · 2024-06-08T10:02:01+09:00

Qwen2はQwen1.5から発展したモデルで、5種類のサイズの事前学習モデルおよび命令チューニングモデルを含むモデルサイズはQwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B 英語と中国語に加えて27言語のデータを追加学習多数のベンチマーク評価で最先端の性能を示し、コーディングと数学分野で大幅に性能が改善 Qwen2-7B-InstructとQwen2-72B-InstructモデルはYARNを活用し、最大128Kトークンの拡張コンテキスト長をサポート Qwen2モデル情報すべてのモデルサイズにGroup Query Attention(GQA)を適用し、推論速度の向上とメモリ使用量の削減を実現小規模モデルではEmbedding Tying手法の適用を優先命令チューニングモデルはNeedle in a Haystackタスク評価を通じてコンテキスト長の処理能力を評価 YARN技術により、Qwen2-7B-InstructとQwen2-72B-Instructは128Kトークンまで処理可能性能英語、中国語に加え27言語のデータセットで事前学習と命令チューニングを行い、多言語能力を強化コードスイッチング処理能力が大幅に改善事前学習データセットと最適化された学習方法を活用し、Qwen2-72BはLlama-3-70Bなどの最新モデルより優れた性能を示す事後学習を通じて、コーディング、数学、推論、命令実行、多言語理解などの能力をさらに向上させ、人間の価値とのアラインメントも達成 16のベンチマークでQwen2-72B-InstructはQwen1.5-72B-Chatを大きく上回り、Llama-3-70B-Instructに匹敵する性能を示す小規模なQwen2モデルも同等またはより大規模なSOTAモデルを上回る。特にコーディングと中国語関連の指標で際立つ主なポイント CodeQwen1.5のコード学習経験とデータを統合し、Qwen2-72B-Instructの多様なプログラミング言語での性能を大幅に向上幅広く高品質なデータセットを活用し、Qwen2-72B-Instructの数学問題解決能力を強化 128K長の情報抽出タスクをQwen2-72B-Instructが完全に処理可能 100万トークン文書処理のための効率的なエージェントソリューションもオープンソース化 4種類の多言語有害クエリに対する有害応答率を評価した結果、Qwen2-72B-InstructはGPT-4と同水準の安全性を示し、Mistral-8x22Bを大きく上回る Qwen2の活用すべてのモデルがHugging FaceとModelScopeで公開されており、自由に活用可能 Qwen2-72Bと命令チューニングモデルはQianwen Licenseを、それ以外のモデルはApache 2.0ライセンスを採用さまざまなサードパーティ製フレームワークとともにQwen2を活用する方法は、各フレームワークのドキュメントと公式ドキュメントを参照 Qwen2の今後の計画より大規模なQwen2モデルを学習させ、データスケーリングとともにモデルスケーリングを探求する予定視覚情報と聴覚情報も理解できるマルチモーダル言語モデルへとQwen2を拡張する計画今後も新しいモデルをオープンソース化し、オープンソースAIの発展を加速していく

(qwenlm.github.io)

5 ポイント投稿者 xguru 2024-06-08 | 1件のコメント | WhatsAppで共有

Qwen2はQwen1.5から発展したモデルで、5種類のサイズの事前学習モデルおよび命令チューニングモデルを含む
- モデルサイズはQwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B
英語と中国語に加えて27言語のデータを追加学習
多数のベンチマーク評価で最先端の性能を示し、コーディングと数学分野で大幅に性能が改善
Qwen2-7B-InstructとQwen2-72B-InstructモデルはYARNを活用し、最大128Kトークンの拡張コンテキスト長をサポート

Qwen2モデル情報

すべてのモデルサイズにGroup Query Attention(GQA)を適用し、推論速度の向上とメモリ使用量の削減を実現
小規模モデルではEmbedding Tying手法の適用を優先
命令チューニングモデルはNeedle in a Haystackタスク評価を通じてコンテキスト長の処理能力を評価
YARN技術により、Qwen2-7B-InstructとQwen2-72B-Instructは128Kトークンまで処理可能

性能

英語、中国語に加え27言語のデータセットで事前学習と命令チューニングを行い、多言語能力を強化
コードスイッチング処理能力が大幅に改善
事前学習データセットと最適化された学習方法を活用し、Qwen2-72BはLlama-3-70Bなどの最新モデルより優れた性能を示す
事後学習を通じて、コーディング、数学、推論、命令実行、多言語理解などの能力をさらに向上させ、人間の価値とのアラインメントも達成
16のベンチマークでQwen2-72B-InstructはQwen1.5-72B-Chatを大きく上回り、Llama-3-70B-Instructに匹敵する性能を示す
小規模なQwen2モデルも同等またはより大規模なSOTAモデルを上回る。特にコーディングと中国語関連の指標で際立つ

主なポイント

CodeQwen1.5のコード学習経験とデータを統合し、Qwen2-72B-Instructの多様なプログラミング言語での性能を大幅に向上
幅広く高品質なデータセットを活用し、Qwen2-72B-Instructの数学問題解決能力を強化
128K長の情報抽出タスクをQwen2-72B-Instructが完全に処理可能
100万トークン文書処理のための効率的なエージェントソリューションもオープンソース化
4種類の多言語有害クエリに対する有害応答率を評価した結果、Qwen2-72B-InstructはGPT-4と同水準の安全性を示し、Mistral-8x22Bを大きく上回る

Qwen2の活用

すべてのモデルがHugging FaceとModelScopeで公開されており、自由に活用可能
Qwen2-72Bと命令チューニングモデルはQianwen Licenseを、それ以外のモデルはApache 2.0ライセンスを採用
さまざまなサードパーティ製フレームワークとともにQwen2を活用する方法は、各フレームワークのドキュメントと公式ドキュメントを参照

Qwen2の今後の計画

より大規模なQwen2モデルを学習させ、データスケーリングとともにモデルスケーリングを探求する予定
視覚情報と聴覚情報も理解できるマルチモーダル言語モデルへとQwen2を拡張する計画
今後も新しいモデルをオープンソース化し、オープンソースAIの発展を加速していく

1件のコメント

xguru 2024-06-08

Alibaba、オープンソースAIモデル QWEN を公開
 Qwen1.5-110B : アリババのオープンソースLLM「Qwen1.5」シリーズ初の100B+モデル