Zyphra、Llama3を上回る小型言語モデル「Zamba2-7B」を公開
(zyphra.com)- Zamba2-7Bは、Mistral-7B、Gemma-7B、Llama3-8Bなど現在の主要な7Bモデルと比べて、評価ベンチマーク性能と推論効率の両面でSOTAを達成
- Zamba2-7Bは、最初のトークン生成までが25%高速で、毎秒トークン数は20%向上し、Llama3-8Bなどと比べてメモリ使用量も大幅に減少するなど、推論効率が非常に高い
Zamba1-7Bと比べたZamba2-7Bのアーキテクチャ改善点
- Mamba1ブロックをMamba2ブロックに置き換え
- 単一の共有アテンションブロックの代わりに、ネットワーク全体にABABパターンでインターリーブされた2つの共有アテンションブロックを使用
- 各共有MLPブロックにLoRAプロジェクタを適用し、深さに応じた共有レイヤー呼び出しごとにMLPを特化できる
- Apache 2.0ライセンスでモデル重みをオープンソース公開
Zamba2-7Bの言語モデリング評価セット性能
- Zamba2は、レイテンシと生成速度を考慮すると、標準的な言語モデリング評価セットで非常に優れた性能を示す
- 8B以下の小型言語モデルの中で、品質と性能の両方で先頭を走っている
Zamba2-7Bが既存のSOTAモデルを上回る理由
- 新しい共有アテンションアーキテクチャにより、Mamba2バックボーンにより多くのパラメータを割り当てられる。共有Transformerブロックは、アテンション演算の豊かな系列間依存性を保持する
- 3兆トークンの事前学習データセットは、Zydaと積極的にフィルタリングおよび重複除去された公開データセットの組み合わせで構成され、既存の上位オープンソース事前学習データセットを上回る最高品質を達成
- 別個の「アニーリング」事前学習段階で、1,000億の高品質トークンにわたって学習率を急激に低下させた。アニーリングセットは多様な高品質ソースから収集され、品質が厳格に管理されている
優れた事前学習およびアニーリング用データセットの品質により、Zamba2-7Bは学習トークン当たりの性能が非常に高く、競合モデルの曲線よりもはるか上に余裕を持って位置している
ZambaハイブリッドSSM-アテンションアーキテクチャ
- Zamba2-7Bは、元のZambaハイブリッドSSM-アテンションアーキテクチャを活用し、拡張している
- 中核となるZambaアーキテクチャは、1つ以上の共有アテンションレイヤーをインターリーブしたMambaレイヤーバックボーンで構成される(Zamba1は1個、Zamba2は2つの共有アテンションを使用)
- このアテンションは、モデルのパラメータコストを最小限に抑えるため共有重みを持つ
- 入力の元のモデル埋め込みをこのアテンションブロックに接続すると、深さ方向での情報保持が向上し、性能改善につながるようだ
- Zamba2アーキテクチャは、共有MLPにLoRA射影行列を適用することで、各ブロックがパラメータオーバーヘッドを小さく保ちながら固有の位置にわずかに特化できる追加の表現力を得ている
SOTA推論効率を実現する要因
- Mamba2ブロックは非常に効率的で、同じパラメータ規模のTransformerブロックと比べてスループットが約4倍
- Mambaブロックは保存すべき小さな隠れ状態があればよく、KVキャッシュを必要としないため、共有アテンションブロック呼び出し分のKV状態だけを保存すればよい
- モデルサイズを、現代のハードウェアで並列化に非常に適したものとして選定している(例: GPUの複数のストリーミングマルチプロセッサ、CPUのマルチコア)
Zamba2-7Bの学習と公開
- Zamba2-7Bは、Megatron-LMベースで開発された内部学習フレームワークを用いて、128基のH100 GPUで約50日間学習された
- Zamba2-7Bは、7Bスケールにおいて小規模チームと適正な予算でも最先端に到達し、さらにそれを超えられることを示している
- オープンソースライセンスで公開され、研究者、開発者、企業がその機能を活用できる
- AIコミュニティがZambaの独自アーキテクチャを探求し、効率的な基盤モデルの限界をさらに押し広げていくことが期待される
公開されたZamba2-7Bモデル:
- Instruct Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B-Instruct
- Base Zamba2-7B: https://huggingface.co/Zyphra/Zamba2-7B
- Pure PyTorch: https://github.com/Zyphra/Zamba2
Zyphraのビジョン
- Zyphraチームは、高度なAIシステムの大衆化、性能最前線にある新しいアーキテクチャの探求、強力なモデルに関する科学的研究と理解の発展に尽力している
- このビジョンを共有する他者との協力を期待している
GN⁺の意見
- ZyphraがZamba2をオープンソース公開したことには大きな意義がある。誰もが最先端の言語モデルを無料で利用・研究できるようになったという点で、AI技術の大衆化に貢献するだろう
- Zamba2の新しいアーキテクチャは、従来のTransformerベースモデルの限界を克服し、より効率的な言語モデルを作る方向性を示している。共有アテンションやLoRA射影などZamba独自のアイデアは、今後の言語モデル研究にインスピレーションを与えそうだ
- 中小規模のチームでも最新ハードウェアを活用してSOTA性能の大規模言語モデルを作れる点も心強い。今後は多様な組織の参加によって基盤モデル開発がさらに活発になることが期待される
- Zamba2の性能が実際のアプリケーションでもどう発揮されるかは見守る必要がある。優れたベンチマークスコアがそのまま現実世界のタスクにつながるとは限らないためだ。さまざまな分野の実務者がZamba2を活用し、長所と短所を共有していくことが重要になるだろう
1件のコメント
Hacker Newsの意見
記事にリンクされていない重みを探している人向けにリンクを共有
性能向上がデータセット改善のおかげなのか、アーキテクチャのおかげなのか気になる。かなりコストのかかる実験になりそう
LLMのリリースがベンチマークを都合よく選んで使うことにうんざりしている。SOTAのqwen2.5/phi3.5との比較が気になる
Apacheライセンスのモデルがもっと増えるのは良いこと。特に多様なアーキテクチャとともに
Mamba2ブロックに関する理論的研究の量に比べると、性能向上は非常にわずか
2つのattentionヘッドを使うとき、それぞれのattentionヘッドがデータの異なる側面に注目しているのか気になる
7Bが特別な理由は何なのか気になる。なぜ8B、9B、11.234Bではないのかと質問している。7Bが2のべき乗として解釈されるのか気になっている
また別の日に、AIでまたひとつ世界記録が打ち立てられる
このモデルがどの言語をサポートしているのか、何か情報があるか質問している