DBRX - 新たな最先端（SOTA）のオープンLLM

(databricks.com)

16 ポイント投稿者 GN⁺ 2024-03-28 | 1件のコメント | WhatsAppで共有

Databricksが新しいオープンな汎用LLMであるDBRXを公開
標準ベンチマークで既存のオープンLLMを上回る新たな最高水準を達成し、これまでクローズドモデルのAPIに限定されていた機能をオープンコミュニティと企業に提供
- GPT-3.5を上回り、Gemini 1.0 Proとも競争可能
- コード分野でもCodeLLaMA-70Bのような特化モデルを上回る
DBRXは学習および推論性能で顕著な改善を示す
- きめ細かな専門家混合（MoE）アーキテクチャを用いて効率を向上
- 推論速度はLLaMA2-70Bより最大2倍高速で、Grok-1と比べてサイズは約40%小さい

DBRXの構造

DBRXはトランスフォーマーベースのデコーダ専用大規模言語モデル（LLM）で、次トークン予測を用いて学習
総パラメータ132Bのうち36Bが活性化され、12Tトークンのテキストとコードデータで事前学習
DBRXは他のオープンMoEモデルに比べてより細分化されており、これがモデル品質の向上につながることが示されている

ベンチマークでの品質

DBRX Instructは複合ベンチマーク、プログラミングおよび数学ベンチマーク、MMLUで先導的なモデル
DBRX Instructは標準ベンチマークで、すべてのチャットまたは指示追従にチューニングされたモデルを上回る

クローズドモデルとの比較

DBRX InstructはGPT-3.5を上回り、Gemini 1.0 ProおよびMistral Mediumと競争力がある
DBRX Instructは一般知識、常識推論、プログラミング、および数学的推論でGPT-3.5を上回る

長文コンテキスト処理とRAGでの品質

DBRX Instructは最大32Kトークンのコンテキストウィンドウで学習されている。
DBRX Instructは長文コンテキストのベンチマークで、GPT-3.5 TurboおよびGPT-4 Turbo APIの最新バージョンと比較された。
DBRX Instructはあらゆるコンテキスト長とシーケンスのすべての部分で、GPT-3.5 Turboより優れた性能を示す。

学習効率

DBRXのMoEアーキテクチャと学習パイプライン全体は、学習効率を実証している。
DBRXのMoEアーキテクチャは、学習に必要なFLOPを削減しながら高品質を実現する。

推論効率

DBRXはNVIDIA TensorRT-LLMを用いた最適化済み推論インフラ上で、高い推論スループットを示す。
MoEモデルは一般に、総パラメータ数に比べて推論速度が速い。

DBRXの構築方法

DBRXはNVIDIA H100を使用して学習され、Databricksのツールを使って構築された。
DBRXはDatabricksのMPTおよびDollyプロジェクトの延長線上で開発され、顧客とともに数千のLLMを学習してきた経験が活かされている。

DatabricksでDBRXを始める

Databricks Mosaic AI Foundation Model APIを通じてDBRXを簡単に利用できる。
DBRXはDatabricks Marketplaceからダウンロードして、モデルサービングにデプロイできる。

結論

Databricksは、すべての企業がGenAIの世界で自社のデータと運命をコントロールできるべきだと考えている。
DBRXはDatabricksの次世代GenAI製品の中核要素である。

貢献

DBRXの開発はMosaicチームが主導し、Databricksのさまざまな部門が協力して完成した。

GN⁺の見解

DBRXは既存のGPTモデルと競争できる新たなオープンソース言語モデルであり、特にコード生成やプログラミング作業で優れた性能を示すことが期待される。
MoEアーキテクチャを採用することで、DBRXは推論速度とモデルサイズの面で効率を大きく向上させたように見える。これは、リソース制約のある環境でも高性能モデルを活用できるようにする可能性がある。
DBRXのオープンソースアプローチは、研究者や開発者がモデルを自由に実験し改善できる機会を提供する。これはAIコミュニティへの大きな貢献となり得る。
DBRXが提供するAPIと統合ツールは、企業が独自の言語モデルをより簡単に開発・デプロイできるよう支援する。これは企業がAI技術を活用して競争力を強化するうえで役立つだろう。
DBRXのリリースはオープンソース言語モデルの発展における重要なマイルストーンとなる可能性があり、今後このモデルがどのように進化し、さまざまな分野に適用されるのかを見守るのは興味深い。

1件のコメント

GN⁺ 2024-03-28

Hacker Newsの意見

現在注目に値するモデル:
- Miqu 70B: 一般的な会話向け
- Deepseed 33B: コーディング向け
- Yi 34B: 32Kコンテキスト以上の会話向け
- これらのモデルのファインチューニング版も存在
- 34B-70B帯の他モデルもあるが、Qwenモデルは印象的ではない
- Llama 70B、Mixtral、Grokモデルはチャートには載っているが、最新技術（SOTA）と見るのは難しい。ただしMixtralはバッチサイズ1での速度に優れる
モデルカードとリソース要件:
- モデルには約264GBのRAMが必要
- パラメータ数の代わりに、(GPU RAM + CPU RAM) の総量と評価メトリクスを追跡する転換点がいつ来るのか気になる
- 例えば、float32を使う7Bパラメータモデルは、float4を使う同一パラメータ数のモデルより性能が高い可能性が高い
- 1枚のGPUに収まるよう、最近登場した優秀なモデルを量子化する例もあるが、量子化モデルは元のモデルとは別物なので、メトリクスを再実行する必要がある
大規模言語モデル（LLM）の収束性:
- すべてのLLMが同じデータで訓練されると、ある特定の地点に収束するという証拠がある
- タスク性能に関する主張は単なる主張にすぎず、次のLlamaやMixtralの反復版は収束するだろう
- LLMはLinux/WindowsやiOS/Androidのように、基盤モデル間で大きな違いなく進化していくように見える
混合量子化とMoEオフローディングへの期待:
- MQQを用いたMixed QuantizationとMoE Offloadingにより、10GB VRAMのrtx3080でMistral 8x7Bを動かせた
- この方法はDBRXにも適用可能で、VRAM要件を大幅に下げられる可能性がある
Databricksのビジネス上の利益:
- DatabricksがオープンLLMに数百万ドルを投資することで、どんなビジネス上の利点を得るのか気になる
チャート比較と評価:
- LLaMa2のHuman Evalスコアをチャートに入れておきながら、Code Llama Instruct 70bと比較しないのはチャート犯罪だ
- DBRXはCode Llama Instructの67.8を大きく上回ってはいないが、それでも優秀
新しいGPU購入計画とVRAM要件:
- 16GB VRAM GPUが70GBモデルをうまく動かせるのか、12GB VRAM GPUより目に見えて優れているのかという質問
- Ollamaはローカルでうまく動作し、mixtral（7B、3.4GB）は1080tiで問題なく動くが、24.6GB版はやや遅く、起動時間もはっきりとかかる
ベースモデル承認への不満:
- ベースモデルの承認はあまりオープンではないように感じる
- instructモデルは即時承認される一方で、多くの人がダウンロード機会を待っている
- ベースモデルの方がファインチューニングにはより興味深い
学習効率の改善:
- LLMの事前学習パイプラインは、過去10か月で計算効率がほぼ4倍になったという話
- 学習コストが非常に高いため、こうした改善は歓迎すべきであり、ムーアの法則に従うことが期待される
コーディング評価の汚染可能性:
- 学習データによってコーディング評価が汚染される可能性がある
- こうしたスコアのインフレを避けるための標準的な方法はあるのか、という質問

DBRX - 新たな最先端（SOTA）のオープンLLM

DBRXの構造

ベンチマークでの品質

クローズドモデルとの比較

長文コンテキスト処理とRAGでの品質

学習効率

推論効率

DBRXの構築方法

DatabricksでDBRXを始める

結論

貢献

GN⁺の見解

関連記事

1件のコメント

Hacker Newsの意見