Qwen1.5-110B : アリババのオープンソースLLM Qwen1.5シリーズ初の100B+モデル

xguru · 2024-04-28T09:30:03+09:00

オープンソースコミュニティでは最近、1000億個以上のパラメータを持つ大規模モデルが次々と登場しており、ベンチマーク評価やチャットボット分野で驚くべき性能を示しているアリババも、Qwen1.5シリーズ初の100B+モデルであるQwen1.5-110Bを公開ベースモデル評価ではMeta-Llama3-70Bに匹敵する性能を達成し、MT-BenchやAlpacaEval 2.0を含むチャット評価でも優れた性能を示した Qwen1.5-110Bモデルの特徴 Qwen1.5-110Bは他のQwen1.5モデルと同様で、同一のTransformerデコーダアーキテクチャで構築されている Grouped Query Attention（GQA）で構成されており、モデルサービングに効率的 32Kトークンのコンテキスト長をサポートし、英語、中国語、フランス語、スペイン語、ドイツ語、ロシア語、日本語、ベトナム語、アラビア語など多数の言語をサポートする多言語モデルベース言語モデル評価結果ベース言語モデルに対する一連の評価を行い、最近のSOTA言語モデルであるMeta-Llama3-70BおよびMixtral-8x22Bと比較結果によれば、新しい110Bモデルはベース能力の面でLlama-3-70Bモデルと少なくとも競争力があるこのモデルでは事前学習および事後学習のレシピを大きく変更していないため、72B比での性能向上はモデルサイズの増加に由来するとみられるチャットモデル評価結果 MT-BenchとAlpacaEval 2.0でチャットモデルをテスト以前に公開された72Bモデルと比べて、110Bは2つのベンチマーク評価で顕著に優れた性能を示した評価における一貫した改善は、事後学習のレシピを大きく変更しなくても、より強力で大規模なベース言語モデルがより優れたチャットモデルにつながりうることを示している Qwen1.5-110Bで開発する Transformers、vLLM、llama.cpp、Ollama、LMStudio、SkyPilot、Axolotl、LLaMA-Factoryなどでの使い方を把握するには、Qwen1.5ブログを読むことを推奨結論 Qwen1.5-110BはQwen1.5シリーズで最も大きなモデルであり、シリーズ初の1000億個以上のパラメータを持つモデル最近公開されたSOTAモデルであるLlama-3-70Bと競争力のある性能を示し、72Bモデルより大幅に優れているこれは、より良い性能のためにモデルサイズ拡張になお多くの可能性があることを示している Llama-3の公開は、データを極めて大規模に拡張することの重要性を示しているが、今後の公開ではデータとモデルサイズの両方を拡張し、両者の利点を得られると考えている

(qwenlm.github.io)

5 ポイント投稿者 xguru 2024-04-28 | 1件のコメント | WhatsAppで共有

オープンソースコミュニティでは最近、1000億個以上のパラメータを持つ大規模モデルが次々と登場しており、ベンチマーク評価やチャットボット分野で驚くべき性能を示している
アリババも、Qwen1.5シリーズ初の100B+モデルであるQwen1.5-110Bを公開
ベースモデル評価ではMeta-Llama3-70Bに匹敵する性能を達成し、MT-BenchやAlpacaEval 2.0を含むチャット評価でも優れた性能を示した

Qwen1.5-110Bモデルの特徴

Qwen1.5-110Bは他のQwen1.5モデルと同様で、同一のTransformerデコーダアーキテクチャで構築されている
Grouped Query Attention（GQA）で構成されており、モデルサービングに効率的
32Kトークンのコンテキスト長をサポートし、英語、中国語、フランス語、スペイン語、ドイツ語、ロシア語、日本語、ベトナム語、アラビア語など多数の言語をサポートする多言語モデル

ベース言語モデル評価結果

ベース言語モデルに対する一連の評価を行い、最近のSOTA言語モデルであるMeta-Llama3-70BおよびMixtral-8x22Bと比較
結果によれば、新しい110Bモデルはベース能力の面でLlama-3-70Bモデルと少なくとも競争力がある
このモデルでは事前学習および事後学習のレシピを大きく変更していないため、72B比での性能向上はモデルサイズの増加に由来するとみられる

チャットモデル評価結果

MT-BenchとAlpacaEval 2.0でチャットモデルをテスト
以前に公開された72Bモデルと比べて、110Bは2つのベンチマーク評価で顕著に優れた性能を示した
評価における一貫した改善は、事後学習のレシピを大きく変更しなくても、より強力で大規模なベース言語モデルがより優れたチャットモデルにつながりうることを示している

Qwen1.5-110Bで開発する

Transformers、vLLM、llama.cpp、Ollama、LMStudio、SkyPilot、Axolotl、LLaMA-Factoryなどでの使い方を把握するには、Qwen1.5ブログを読むことを推奨

結論

Qwen1.5-110BはQwen1.5シリーズで最も大きなモデルであり、シリーズ初の1000億個以上のパラメータを持つモデル
最近公開されたSOTAモデルであるLlama-3-70Bと競争力のある性能を示し、72Bモデルより大幅に優れている
これは、より良い性能のためにモデルサイズ拡張になお多くの可能性があることを示している
Llama-3の公開は、データを極めて大規模に拡張することの重要性を示しているが、今後の公開ではデータとモデルサイズの両方を拡張し、両者の利点を得られると考えている

1件のコメント

xguru 2024-04-28

Alibaba、オープンソースAIモデル QWEN を公開