Jamba - 本番運用レベルのMambaベースAIモデル

xguru · 2024-03-30T09:46:02+09:00

AI21 Labsが、Mambaアーキテクチャをベースにした世界初の本番運用レベルのAIモデル、Jambaを公開 Jambaは、Mamba SSM（構造化状態空間モデル）と従来のトランスフォーマーアーキテクチャの強みを組み合わせ、印象的な性能と効率向上を実現 256Kトークンの広大なコンテキストウィンドウを備え、単一の80GB GPUで最大140Kトークンを処理 Jambaのハイブリッドアーキテクチャと性能 Jambaは、ハイブリッドSSM-トランスフォーマーアーキテクチャを通じて、52Bパラメータのうち推論時には12Bのみを使用するMixture of Experts（MoE）レイヤーを活用 MetaのLlama 2のような競合モデルよりもはるかに長いコンテキストを処理でき、高いスループットと効率を維持長いコンテキストで3倍高いスループットを提供し、同規模のトランスフォーマーベースモデルよりも効率的ブロックおよびレイヤーのアプローチを特徴とし、各Jambaブロックは注意機構またはMambaレイヤーを含み、その後に多層パーセプトロン（MLP）が続くこの構造では、全8レイヤーのうち1つがトランスフォーマーレイヤーとして使われる比率になっているさまざまなベンチマークで優れた結果を示し、同規模の最新モデルと比べて幅広いタスクで上回る、または同等の性能を達成ライセンス JambaはApache 2.0ライセンスの下でオープンウェイトとして公開され、Hugging Faceで利用可能現時点のJambaは商用利用に必要な安全対策なしの研究モデルとして公開されているが、AI21 Labsは今後数週間以内に、より安全なバージョンを公開する計画

(maginative.com)

11 ポイント投稿者 xguru 2024-03-30 | 1件のコメント | WhatsAppで共有

AI21 Labsが、Mambaアーキテクチャをベースにした世界初の本番運用レベルのAIモデル、Jambaを公開
Jambaは、Mamba SSM（構造化状態空間モデル）と従来のトランスフォーマーアーキテクチャの強みを組み合わせ、印象的な性能と効率向上を実現
256Kトークンの広大なコンテキストウィンドウを備え、単一の80GB GPUで最大140Kトークンを処理

Jambaのハイブリッドアーキテクチャと性能

Jambaは、ハイブリッドSSM-トランスフォーマーアーキテクチャを通じて、52Bパラメータのうち推論時には12Bのみを使用するMixture of Experts（MoE）レイヤーを活用
MetaのLlama 2のような競合モデルよりもはるかに長いコンテキストを処理でき、高いスループットと効率を維持
長いコンテキストで3倍高いスループットを提供し、同規模のトランスフォーマーベースモデルよりも効率的
ブロックおよびレイヤーのアプローチを特徴とし、各Jambaブロックは注意機構またはMambaレイヤーを含み、その後に多層パーセプトロン（MLP）が続く
この構造では、全8レイヤーのうち1つがトランスフォーマーレイヤーとして使われる比率になっている
さまざまなベンチマークで優れた結果を示し、同規模の最新モデルと比べて幅広いタスクで上回る、または同等の性能を達成

ライセンス

JambaはApache 2.0ライセンスの下でオープンウェイトとして公開され、Hugging Faceで利用可能
現時点のJambaは商用利用に必要な安全対策なしの研究モデルとして公開されているが、AI21 Labsは今後数週間以内に、より安全なバージョンを公開する計画

1件のコメント

xguru 2024-03-30

Hacker Newsのコメント

Mambaの説明がある最近のスレッドへのリンクを共有
- Mamba解説スレッドとより良いスレッドの2つのリンクを提示。
transformer と state space model レイヤー間のトレードオフに興味がある人に、Sasha Rushの動画を推薦
- Sasha Rushの動画を通じて、transformer と state space model レイヤーの違いの理解に役立つ。
Linuxで4090 GPUを1枚または2枚使って動かそうとした試みと関連する問題を共有
- Linuxで4090 GPUを使ってチェックポイントを読み込む際に問題が発生し、VRAMは十分に見えるものの失敗するとのこと。試み自体には興味を示している。
Mambaを使った完全な本番レベルのモデルの登場を歓迎しつつ、長いコンテキストウィンドウのベンチマークにおける性能とスループットの両方に関心を表明
- Mambaは長いコンテキストを使うとスループットは大きく向上するが、精度はやや失われるという印象を持っている。
LLM (Large Language Models) の非効率性を指摘
- 80GBのGPUメモリを必要とするLLMの非効率性に言及し、アルゴリズム改善の余地がまだ大きいことへの期待を述べている。
self-attention レイヤーの必要性に疑問を提起
- SSMとMLPレイヤーだけを交互に使うのではなく、なぜ self-attention レイヤーを含めるのかと質問。
Jamba-v0.1-hybrid-MoEモデルの性能向上について説明
- Jamba-v0.1-hybrid-MoEモデルは既存モデルより長いコンテキスト、より高速な速度、より低いコストを提供し、「1つのモデルがすべてを支配する」という考えに終止符を打つだろうという意見。
Mambaという名前の重複問題を指摘
- Mambaという名前はすでに人気のあるPythonパッケージで使われているため、名前選びの重要性を強調。
Sparaboという名前への言及と、新しいものに古い名前が結び付けられることへの面白さに言及
- Sparaboという名前が存在するのかと問いかけ、新しいものに古い名前が使われることへの興味を表明。
長いコンテキストの作業がMemGPTと関連していると述べ、Mambaアーキテクチャのモデルにも似た概念を適用できる可能性を示唆
- MemGPTに関連する長いコンテキストの取り組みに触れ、Mambaアーキテクチャのモデルにもそれを適用できるのではないかという意見を示している.