- Qwen2はQwen1.5から発展したモデルで、5種類のサイズの事前学習モデルおよび命令チューニングモデルを含む
- モデルサイズはQwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B
- 英語と中国語に加えて27言語のデータを追加学習
- 多数のベンチマーク評価で最先端の性能を示し、コーディングと数学分野で大幅に性能が改善
- Qwen2-7B-InstructとQwen2-72B-InstructモデルはYARNを活用し、最大128Kトークンの拡張コンテキスト長をサポート
Qwen2モデル情報
- すべてのモデルサイズにGroup Query Attention(GQA)を適用し、推論速度の向上とメモリ使用量の削減を実現
- 小規模モデルではEmbedding Tying手法の適用を優先
- 命令チューニングモデルはNeedle in a Haystackタスク評価を通じてコンテキスト長の処理能力を評価
- YARN技術により、Qwen2-7B-InstructとQwen2-72B-Instructは128Kトークンまで処理可能
性能
- 英語、中国語に加え27言語のデータセットで事前学習と命令チューニングを行い、多言語能力を強化
- コードスイッチング処理能力が大幅に改善
- 事前学習データセットと最適化された学習方法を活用し、Qwen2-72BはLlama-3-70Bなどの最新モデルより優れた性能を示す
- 事後学習を通じて、コーディング、数学、推論、命令実行、多言語理解などの能力をさらに向上させ、人間の価値とのアラインメントも達成
- 16のベンチマークでQwen2-72B-InstructはQwen1.5-72B-Chatを大きく上回り、Llama-3-70B-Instructに匹敵する性能を示す
- 小規模なQwen2モデルも同等またはより大規模なSOTAモデルを上回る。特にコーディングと中国語関連の指標で際立つ
主なポイント
- CodeQwen1.5のコード学習経験とデータを統合し、Qwen2-72B-Instructの多様なプログラミング言語での性能を大幅に向上
- 幅広く高品質なデータセットを活用し、Qwen2-72B-Instructの数学問題解決能力を強化
- 128K長の情報抽出タスクをQwen2-72B-Instructが完全に処理可能
- 100万トークン文書処理のための効率的なエージェントソリューションもオープンソース化
- 4種類の多言語有害クエリに対する有害応答率を評価した結果、Qwen2-72B-InstructはGPT-4と同水準の安全性を示し、Mistral-8x22Bを大きく上回る
Qwen2の活用
- すべてのモデルがHugging FaceとModelScopeで公開されており、自由に活用可能
- Qwen2-72Bと命令チューニングモデルはQianwen Licenseを、それ以外のモデルはApache 2.0ライセンスを採用
- さまざまなサードパーティ製フレームワークとともにQwen2を活用する方法は、各フレームワークのドキュメントと公式ドキュメントを参照
Qwen2の今後の計画
- より大規模なQwen2モデルを学習させ、データスケーリングとともにモデルスケーリングを探求する予定
- 視覚情報と聴覚情報も理解できるマルチモーダル言語モデルへとQwen2を拡張する計画
- 今後も新しいモデルをオープンソース化し、オープンソースAIの発展を加速していく
1件のコメント
Alibaba、オープンソースAIモデル QWEN を公開
Qwen1.5-110B : アリババのオープンソースLLM「Qwen1.5」シリーズ初の100B+モデル