5 ポイント 投稿者 xguru 2024-06-08 | 1件のコメント | WhatsAppで共有
  • Qwen2はQwen1.5から発展したモデルで、5種類のサイズの事前学習モデルおよび命令チューニングモデルを含む
    • モデルサイズはQwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72B
  • 英語と中国語に加えて27言語のデータを追加学習
  • 多数のベンチマーク評価で最先端の性能を示し、コーディングと数学分野で大幅に性能が改善
  • Qwen2-7B-InstructとQwen2-72B-InstructモデルはYARNを活用し、最大128Kトークンの拡張コンテキスト長をサポート

Qwen2モデル情報

  • すべてのモデルサイズにGroup Query Attention(GQA)を適用し、推論速度の向上とメモリ使用量の削減を実現
  • 小規模モデルではEmbedding Tying手法の適用を優先
  • 命令チューニングモデルはNeedle in a Haystackタスク評価を通じてコンテキスト長の処理能力を評価
  • YARN技術により、Qwen2-7B-InstructとQwen2-72B-Instructは128Kトークンまで処理可能

性能

  • 英語、中国語に加え27言語のデータセットで事前学習と命令チューニングを行い、多言語能力を強化
  • コードスイッチング処理能力が大幅に改善
  • 事前学習データセットと最適化された学習方法を活用し、Qwen2-72BはLlama-3-70Bなどの最新モデルより優れた性能を示す
  • 事後学習を通じて、コーディング、数学、推論、命令実行、多言語理解などの能力をさらに向上させ、人間の価値とのアラインメントも達成
  • 16のベンチマークでQwen2-72B-InstructはQwen1.5-72B-Chatを大きく上回り、Llama-3-70B-Instructに匹敵する性能を示す
  • 小規模なQwen2モデルも同等またはより大規模なSOTAモデルを上回る。特にコーディングと中国語関連の指標で際立つ

主なポイント

  • CodeQwen1.5のコード学習経験とデータを統合し、Qwen2-72B-Instructの多様なプログラミング言語での性能を大幅に向上
  • 幅広く高品質なデータセットを活用し、Qwen2-72B-Instructの数学問題解決能力を強化
  • 128K長の情報抽出タスクをQwen2-72B-Instructが完全に処理可能
  • 100万トークン文書処理のための効率的なエージェントソリューションもオープンソース化
  • 4種類の多言語有害クエリに対する有害応答率を評価した結果、Qwen2-72B-InstructはGPT-4と同水準の安全性を示し、Mistral-8x22Bを大きく上回る

Qwen2の活用

  • すべてのモデルがHugging FaceとModelScopeで公開されており、自由に活用可能
  • Qwen2-72Bと命令チューニングモデルはQianwen Licenseを、それ以外のモデルはApache 2.0ライセンスを採用
  • さまざまなサードパーティ製フレームワークとともにQwen2を活用する方法は、各フレームワークのドキュメントと公式ドキュメントを参照

Qwen2の今後の計画

  • より大規模なQwen2モデルを学習させ、データスケーリングとともにモデルスケーリングを探求する予定
  • 視覚情報と聴覚情報も理解できるマルチモーダル言語モデルへとQwen2を拡張する計画
  • 今後も新しいモデルをオープンソース化し、オープンソースAIの発展を加速していく