7 ポイント 投稿者 GN⁺ 2024-10-16 | 1件のコメント | WhatsAppで共有
  • Zamba2-7Bは、Mistral-7B、Gemma-7B、Llama3-8Bなど現在の主要な7Bモデルと比べて、評価ベンチマーク性能と推論効率の両面でSOTAを達成
  • Zamba2-7Bは、最初のトークン生成までが25%高速で、毎秒トークン数は20%向上し、Llama3-8Bなどと比べてメモリ使用量も大幅に減少するなど、推論効率が非常に高い

Zamba1-7Bと比べたZamba2-7Bのアーキテクチャ改善点

  • Mamba1ブロックをMamba2ブロックに置き換え
  • 単一の共有アテンションブロックの代わりに、ネットワーク全体にABABパターンでインターリーブされた2つの共有アテンションブロックを使用
  • 各共有MLPブロックにLoRAプロジェクタを適用し、深さに応じた共有レイヤー呼び出しごとにMLPを特化できる
  • Apache 2.0ライセンスでモデル重みをオープンソース公開

Zamba2-7Bの言語モデリング評価セット性能

  • Zamba2は、レイテンシと生成速度を考慮すると、標準的な言語モデリング評価セットで非常に優れた性能を示す
  • 8B以下の小型言語モデルの中で、品質と性能の両方で先頭を走っている

Zamba2-7Bが既存のSOTAモデルを上回る理由

  1. 新しい共有アテンションアーキテクチャにより、Mamba2バックボーンにより多くのパラメータを割り当てられる。共有Transformerブロックは、アテンション演算の豊かな系列間依存性を保持する
  2. 3兆トークンの事前学習データセットは、Zydaと積極的にフィルタリングおよび重複除去された公開データセットの組み合わせで構成され、既存の上位オープンソース事前学習データセットを上回る最高品質を達成
  3. 別個の「アニーリング」事前学習段階で、1,000億の高品質トークンにわたって学習率を急激に低下させた。アニーリングセットは多様な高品質ソースから収集され、品質が厳格に管理されている

優れた事前学習およびアニーリング用データセットの品質により、Zamba2-7Bは学習トークン当たりの性能が非常に高く、競合モデルの曲線よりもはるか上に余裕を持って位置している

ZambaハイブリッドSSM-アテンションアーキテクチャ

  • Zamba2-7Bは、元のZambaハイブリッドSSM-アテンションアーキテクチャを活用し、拡張している
  • 中核となるZambaアーキテクチャは、1つ以上の共有アテンションレイヤーをインターリーブしたMambaレイヤーバックボーンで構成される(Zamba1は1個、Zamba2は2つの共有アテンションを使用)
  • このアテンションは、モデルのパラメータコストを最小限に抑えるため共有重みを持つ
  • 入力の元のモデル埋め込みをこのアテンションブロックに接続すると、深さ方向での情報保持が向上し、性能改善につながるようだ
  • Zamba2アーキテクチャは、共有MLPにLoRA射影行列を適用することで、各ブロックがパラメータオーバーヘッドを小さく保ちながら固有の位置にわずかに特化できる追加の表現力を得ている

SOTA推論効率を実現する要因

  1. Mamba2ブロックは非常に効率的で、同じパラメータ規模のTransformerブロックと比べてスループットが約4倍
  2. Mambaブロックは保存すべき小さな隠れ状態があればよく、KVキャッシュを必要としないため、共有アテンションブロック呼び出し分のKV状態だけを保存すればよい
  3. モデルサイズを、現代のハードウェアで並列化に非常に適したものとして選定している(例: GPUの複数のストリーミングマルチプロセッサ、CPUのマルチコア)

Zamba2-7Bの学習と公開

  • Zamba2-7Bは、Megatron-LMベースで開発された内部学習フレームワークを用いて、128基のH100 GPUで約50日間学習された
  • Zamba2-7Bは、7Bスケールにおいて小規模チームと適正な予算でも最先端に到達し、さらにそれを超えられることを示している
  • オープンソースライセンスで公開され、研究者、開発者、企業がその機能を活用できる
  • AIコミュニティがZambaの独自アーキテクチャを探求し、効率的な基盤モデルの限界をさらに押し広げていくことが期待される

公開されたZamba2-7Bモデル:

Zyphraのビジョン

  • Zyphraチームは、高度なAIシステムの大衆化、性能最前線にある新しいアーキテクチャの探求、強力なモデルに関する科学的研究と理解の発展に尽力している
  • このビジョンを共有する他者との協力を期待している

GN⁺の意見

  • ZyphraがZamba2をオープンソース公開したことには大きな意義がある。誰もが最先端の言語モデルを無料で利用・研究できるようになったという点で、AI技術の大衆化に貢献するだろう
  • Zamba2の新しいアーキテクチャは、従来のTransformerベースモデルの限界を克服し、より効率的な言語モデルを作る方向性を示している。共有アテンションやLoRA射影などZamba独自のアイデアは、今後の言語モデル研究にインスピレーションを与えそうだ
  • 中小規模のチームでも最新ハードウェアを活用してSOTA性能の大規模言語モデルを作れる点も心強い。今後は多様な組織の参加によって基盤モデル開発がさらに活発になることが期待される
  • Zamba2の性能が実際のアプリケーションでもどう発揮されるかは見守る必要がある。優れたベンチマークスコアがそのまま現実世界のタスクにつながるとは限らないためだ。さまざまな分野の実務者がZamba2を活用し、長所と短所を共有していくことが重要になるだろう

1件のコメント

 
GN⁺ 2024-10-16
Hacker Newsの意見
  • 記事にリンクされていない重みを探している人向けにリンクを共有

  • 性能向上がデータセット改善のおかげなのか、アーキテクチャのおかげなのか気になる。かなりコストのかかる実験になりそう

  • LLMのリリースがベンチマークを都合よく選んで使うことにうんざりしている。SOTAのqwen2.5/phi3.5との比較が気になる

    • 最新の独立リーダーボードを知っている人がいるか質問している。Lmsysとlivebenchは最近の主要モデルの多くを見逃している
  • Apacheライセンスのモデルがもっと増えるのは良いこと。特に多様なアーキテクチャとともに

  • Mamba2ブロックに関する理論的研究の量に比べると、性能向上は非常にわずか

    • attentionは依然として重要
  • 2つのattentionヘッドを使うとき、それぞれのattentionヘッドがデータの異なる側面に注目しているのか気になる

    • 記憶研究には出来事の二重表象という概念がある。ひとつはより正確な表象で、もうひとつはより文脈に重みづけされた表象
    • LLMでは、attentionの一方のヘッドが正確な表象に、もう一方がより粗い情報に注目するようなシステムを想像できる。ただ、LLMにはあまり詳しくないので、これが単なる比喩なのかはよくわからない
  • 7Bが特別な理由は何なのか気になる。なぜ8B、9B、11.234Bではないのかと質問している。7Bが2のべき乗として解釈されるのか気になっている

  • また別の日に、AIでまたひとつ世界記録が打ち立てられる

    • Sergey Bubkaを思い出す。彼は男子棒高跳びの世界記録を35回更新した
  • このモデルがどの言語をサポートしているのか、何か情報があるか質問している