Mistral AI、Llama 2 70Bモデルを上回るMixtral 8x7Bモデルを公開

(mistral.ai)

12 ポイント投稿者 GN⁺ 2023-12-12 | 2件のコメント | WhatsAppで共有

"High-quality Sparse Mixture of Experts Model (SMoE、高品質な疎な専門家モデル)"
ほとんどのベンチマークでLlama 2 70Bを上回り、推論は6倍高速
ほとんどの標準ベンチマークでGPT 3.5と同等かそれ以上の性能を示す
許容的ライセンスを持つ最も強力なオープンウェイトモデルであり、コスト/性能面でも最も優れたモデル
32kトークンコンテキストをサポート
英語/フランス語/イタリア語/ドイツ語/スペイン語を処理
コード生成で強力な性能を示す
MT-Benchで8.3点を獲得したInstruction-Followingモデルとしてファインチューニング可能
MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

疎なアーキテクチャを活用したオープンモデルの限界拡張

Mixtralは疎なエキスパートネットワークを採用したデコーダ専用モデル
フィードフォワードブロックは8つの異なるパラメータグループから選択され、各レイヤーでトークンごとにルーターネットワークが2つのエキスパートグループを選んでその出力を結合する
この技術により、モデルのパラメータ数を増やしつつコストとレイテンシを制御できる。Mixtralは合計46.7Bのパラメータを持つが、トークンごとに使用するのは12.9Bのパラメータのみ

性能

MixtralはLlama 2モデルおよびGPT3.5ベースモデルと比較して、ほとんどのベンチマークで同等またはそれ以上の性能を示す。
MixtralはLlama 2 70Bモデルと比べて、より真実性の高い回答を提供し（TruthfulQAベンチマークで73.9%対50.2%）、BBQベンチマークではより少ないバイアスを示す。
Mixtralはフランス語、ドイツ語、スペイン語、イタリア語、英語を巧みに扱う。

指示追従モデル

Mixtral 8x7B Instructは、指示追従性能を最適化するために教師ありファインチューニングと直接選好最適化（DPO）を経ている。
MT-Benchで8.30のスコアを達成し、GPT3.5に匹敵する性能を持つ最高水準のオープンソースモデルとなった。

Mixtralのオープンソース配布スタックによるデプロイ

コミュニティが完全なオープンソーススタックでMixtralを実行できるよう、vLLMプロジェクトに変更を提出した。
現在Mistral AIはMixtral 8x7Bを mistral-small エンドポイントの背後で使用しており、ベータ版として利用可能
すべての生成および埋め込みエンドポイントのアーリーアクセスに登録可能

2件のコメント

cosine20 2023-12-12

下のコメントでも言及されていますが、最初に8x7Bを見て、ではパラメータの総数は56Bなのか？と思いましたね。

GN⁺ 2023-12-12

Hacker Newsの意見

Andrej Karpathyの意見:
- Mixtral 8x7Bに関する公式ポストと、vLLMの推論コードが公開された
- HuggingFaceによるMoE(Mixture of Experts)の説明が有益
- 70Bモデルの性能を、12.9Bの密なモデルの推論速度で達成
- "open weights"という用語の使用に好意的な反応
- "8x7B"という名前が誤解を招く可能性があると指摘
- 各トークンとレイヤーが、8個のうち2個のエキスパートを選択する方式についての混乱に言及
- Mistral-mediumモデルを紹介
Huggingfaceでのモデル利用可能性:
- MistralaiとTheBlokeでMixtralモデルを利用可能
ソフトウェアエンジニア向けの説明要望:
- Mixture of Expertsがどのように動作するのか理解する必要がある
Mixtral 8x7Bの規模に対する反応:
- 45億パラメータを"small"モデルと見なすことへの興味を示す
AIの未来に対する展望:
- MoEがAIの未来になるという前向きな見方
MoEの動作原理と長所・短所に関する質問:
- 従来のモデルと比べてMoEにどのような利点があるのか説明が必要
モデルパラメータに関する混乱:
- "8x7B"という名前と実際のパラメータ数、トークン生成時に使われるパラメータについて混乱を表明
Mistralのアプローチに関する説明:
- CEOが、Mistralはモデルを検閲せず自由なアクセスを志向していると述べた
Mixtral 8x7Bの言語能力:
- フランス語、ドイツ語、スペイン語、イタリア語、英語を巧みに扱う
モデルと重みについての情報要望:
- モデルと重みへのリンクを求める
市場競争力に関する質問:
- GPT 3.5を上回るモデルを持ちながら、OpenAI/Googleとの競争でどのような機会があるのか、今後の見通しへの疑問

Mistral AI、Llama 2 70Bモデルを上回るMixtral 8x7Bモデルを公開

疎なアーキテクチャを活用したオープンモデルの限界拡張

性能

指示追従モデル

Mixtralのオープンソース配布スタックによるデプロイ

関連記事

2件のコメント

Hacker Newsの意見