- Databricksが新しいオープンな汎用LLMであるDBRXを公開
- 標準ベンチマークで既存のオープンLLMを上回る新たな最高水準を達成し、これまでクローズドモデルのAPIに限定されていた機能をオープンコミュニティと企業に提供
- GPT-3.5を上回り、Gemini 1.0 Proとも競争可能
- コード分野でもCodeLLaMA-70Bのような特化モデルを上回る
- DBRXは学習および推論性能で顕著な改善を示す
- きめ細かな専門家混合(MoE)アーキテクチャを用いて効率を向上
- 推論速度はLLaMA2-70Bより最大2倍高速で、Grok-1と比べてサイズは約40%小さい
DBRXの構造
- DBRXはトランスフォーマーベースのデコーダ専用大規模言語モデル(LLM)で、次トークン予測を用いて学習
- 総パラメータ132Bのうち36Bが活性化され、12Tトークンのテキストとコードデータで事前学習
- DBRXは他のオープンMoEモデルに比べてより細分化されており、これがモデル品質の向上につながることが示されている
ベンチマークでの品質
- DBRX Instructは複合ベンチマーク、プログラミングおよび数学ベンチマーク、MMLUで先導的なモデル
- DBRX Instructは標準ベンチマークで、すべてのチャットまたは指示追従にチューニングされたモデルを上回る
クローズドモデルとの比較
- DBRX InstructはGPT-3.5を上回り、Gemini 1.0 ProおよびMistral Mediumと競争力がある
- DBRX Instructは一般知識、常識推論、プログラミング、および数学的推論でGPT-3.5を上回る
長文コンテキスト処理とRAGでの品質
- DBRX Instructは最大32Kトークンのコンテキストウィンドウで学習されている。
- DBRX Instructは長文コンテキストのベンチマークで、GPT-3.5 TurboおよびGPT-4 Turbo APIの最新バージョンと比較された。
- DBRX Instructはあらゆるコンテキスト長とシーケンスのすべての部分で、GPT-3.5 Turboより優れた性能を示す。
学習効率
- DBRXのMoEアーキテクチャと学習パイプライン全体は、学習効率を実証している。
- DBRXのMoEアーキテクチャは、学習に必要なFLOPを削減しながら高品質を実現する。
推論効率
- DBRXはNVIDIA TensorRT-LLMを用いた最適化済み推論インフラ上で、高い推論スループットを示す。
- MoEモデルは一般に、総パラメータ数に比べて推論速度が速い。
DBRXの構築方法
- DBRXはNVIDIA H100を使用して学習され、Databricksのツールを使って構築された。
- DBRXはDatabricksのMPTおよびDollyプロジェクトの延長線上で開発され、顧客とともに数千のLLMを学習してきた経験が活かされている。
DatabricksでDBRXを始める
- Databricks Mosaic AI Foundation Model APIを通じてDBRXを簡単に利用できる。
- DBRXはDatabricks Marketplaceからダウンロードして、モデルサービングにデプロイできる。
結論
- Databricksは、すべての企業がGenAIの世界で自社のデータと運命をコントロールできるべきだと考えている。
- DBRXはDatabricksの次世代GenAI製品の中核要素である。
貢献
- DBRXの開発はMosaicチームが主導し、Databricksのさまざまな部門が協力して完成した。
GN⁺の見解
- DBRXは既存のGPTモデルと競争できる新たなオープンソース言語モデルであり、特にコード生成やプログラミング作業で優れた性能を示すことが期待される。
- MoEアーキテクチャを採用することで、DBRXは推論速度とモデルサイズの面で効率を大きく向上させたように見える。これは、リソース制約のある環境でも高性能モデルを活用できるようにする可能性がある。
- DBRXのオープンソースアプローチは、研究者や開発者がモデルを自由に実験し改善できる機会を提供する。これはAIコミュニティへの大きな貢献となり得る。
- DBRXが提供するAPIと統合ツールは、企業が独自の言語モデルをより簡単に開発・デプロイできるよう支援する。これは企業がAI技術を活用して競争力を強化するうえで役立つだろう。
- DBRXのリリースはオープンソース言語モデルの発展における重要なマイルストーンとなる可能性があり、今後このモデルがどのように進化し、さまざまな分野に適用されるのかを見守るのは興味深い。
1件のコメント
Hacker Newsの意見
現在注目に値するモデル:
モデルカードとリソース要件:
大規模言語モデル(LLM)の収束性:
混合量子化とMoEオフローディングへの期待:
Databricksのビジネス上の利益:
チャート比較と評価:
新しいGPU購入計画とVRAM要件:
ベースモデル承認への不満:
学習効率の改善:
コーディング評価の汚染可能性: