- "High-quality Sparse Mixture of Experts Model (SMoE、高品質な疎な専門家モデル)"
- ほとんどのベンチマークでLlama 2 70Bを上回り、推論は6倍高速
- ほとんどの標準ベンチマークでGPT 3.5と同等かそれ以上の性能を示す
- 許容的ライセンスを持つ最も強力なオープンウェイトモデルであり、コスト/性能面でも最も優れたモデル
- 32kトークンコンテキストをサポート
- 英語/フランス語/イタリア語/ドイツ語/スペイン語を処理
- コード生成で強力な性能を示す
- MT-Benchで8.3点を獲得したInstruction-Followingモデルとしてファインチューニング可能
- MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)
疎なアーキテクチャを活用したオープンモデルの限界拡張
- Mixtralは疎なエキスパートネットワークを採用したデコーダ専用モデル
- フィードフォワードブロックは8つの異なるパラメータグループから選択され、各レイヤーでトークンごとにルーターネットワークが2つのエキスパートグループを選んでその出力を結合する
- この技術により、モデルのパラメータ数を増やしつつコストとレイテンシを制御できる。Mixtralは合計46.7Bのパラメータを持つが、トークンごとに使用するのは12.9Bのパラメータのみ
性能
- MixtralはLlama 2モデルおよびGPT3.5ベースモデルと比較して、ほとんどのベンチマークで同等またはそれ以上の性能を示す。
- MixtralはLlama 2 70Bモデルと比べて、より真実性の高い回答を提供し(TruthfulQAベンチマークで73.9%対50.2%)、BBQベンチマークではより少ないバイアスを示す。
- Mixtralはフランス語、ドイツ語、スペイン語、イタリア語、英語を巧みに扱う。
指示追従モデル
- Mixtral 8x7B Instructは、指示追従性能を最適化するために教師ありファインチューニングと直接選好最適化(DPO)を経ている。
- MT-Benchで8.30のスコアを達成し、GPT3.5に匹敵する性能を持つ最高水準のオープンソースモデルとなった。
Mixtralのオープンソース配布スタックによるデプロイ
- コミュニティが完全なオープンソーススタックでMixtralを実行できるよう、vLLMプロジェクトに変更を提出した。
- 現在Mistral AIはMixtral 8x7Bを mistral-small エンドポイントの背後で使用しており、ベータ版として利用可能
- すべての生成および埋め込みエンドポイントのアーリーアクセスに登録可能
2件のコメント
下のコメントでも言及されていますが、最初に8x7Bを見て、ではパラメータの総数は56Bなのか?と思いましたね。
Hacker Newsの意見
Andrej Karpathyの意見:
Huggingfaceでのモデル利用可能性:
ソフトウェアエンジニア向けの説明要望:
Mixtral 8x7Bの規模に対する反応:
AIの未来に対する展望:
MoEの動作原理と長所・短所に関する質問:
モデルパラメータに関する混乱:
Mistralのアプローチに関する説明:
Mixtral 8x7Bの言語能力:
モデルと重みについての情報要望:
市場競争力に関する質問: