5 ポイント 投稿者 xguru 2024-04-28 | 1件のコメント | WhatsAppで共有
  • オープンソースコミュニティでは最近、1000億個以上のパラメータを持つ大規模モデルが次々と登場しており、ベンチマーク評価やチャットボット分野で驚くべき性能を示している
  • アリババも、Qwen1.5シリーズ初の100B+モデルであるQwen1.5-110Bを公開
  • ベースモデル評価ではMeta-Llama3-70Bに匹敵する性能を達成し、MT-BenchやAlpacaEval 2.0を含むチャット評価でも優れた性能を示した

Qwen1.5-110Bモデルの特徴

  • Qwen1.5-110Bは他のQwen1.5モデルと同様で、同一のTransformerデコーダアーキテクチャで構築されている
  • Grouped Query Attention(GQA)で構成されており、モデルサービングに効率的
  • 32Kトークンのコンテキスト長をサポートし、英語、中国語、フランス語、スペイン語、ドイツ語、ロシア語、日本語、ベトナム語、アラビア語など多数の言語をサポートする多言語モデル

ベース言語モデル評価結果

  • ベース言語モデルに対する一連の評価を行い、最近のSOTA言語モデルであるMeta-Llama3-70BおよびMixtral-8x22Bと比較
  • 結果によれば、新しい110Bモデルはベース能力の面でLlama-3-70Bモデルと少なくとも競争力がある
  • このモデルでは事前学習および事後学習のレシピを大きく変更していないため、72B比での性能向上はモデルサイズの増加に由来するとみられる

チャットモデル評価結果

  • MT-BenchとAlpacaEval 2.0でチャットモデルをテスト
  • 以前に公開された72Bモデルと比べて、110Bは2つのベンチマーク評価で顕著に優れた性能を示した
  • 評価における一貫した改善は、事後学習のレシピを大きく変更しなくても、より強力で大規模なベース言語モデルがより優れたチャットモデルにつながりうることを示している

Qwen1.5-110Bで開発する

  • Transformers、vLLM、llama.cpp、Ollama、LMStudio、SkyPilot、Axolotl、LLaMA-Factoryなどでの使い方を把握するには、Qwen1.5ブログを読むことを推奨

結論

  • Qwen1.5-110BはQwen1.5シリーズで最も大きなモデルであり、シリーズ初の1000億個以上のパラメータを持つモデル
  • 最近公開されたSOTAモデルであるLlama-3-70Bと競争力のある性能を示し、72Bモデルより大幅に優れている
  • これは、より良い性能のためにモデルサイズ拡張になお多くの可能性があることを示している
  • Llama-3の公開は、データを極めて大規模に拡張することの重要性を示しているが、今後の公開ではデータとモデルサイズの両方を拡張し、両者の利点を得られると考えている