12 ポイント 投稿者 GN⁺ 2023-12-12 | 2件のコメント | WhatsAppで共有
  • "High-quality Sparse Mixture of Experts Model (SMoE、高品質な疎な専門家モデル)"
  • ほとんどのベンチマークでLlama 2 70Bを上回り、推論は6倍高速
  • ほとんどの標準ベンチマークでGPT 3.5と同等かそれ以上の性能を示す
  • 許容的ライセンスを持つ最も強力なオープンウェイトモデルであり、コスト/性能面でも最も優れたモデル
  • 32kトークンコンテキストをサポート
  • 英語/フランス語/イタリア語/ドイツ語/スペイン語を処理
  • コード生成で強力な性能を示す
  • MT-Benchで8.3点を獲得したInstruction-Followingモデルとしてファインチューニング可能
  • MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

疎なアーキテクチャを活用したオープンモデルの限界拡張

  • Mixtralは疎なエキスパートネットワークを採用したデコーダ専用モデル
  • フィードフォワードブロックは8つの異なるパラメータグループから選択され、各レイヤーでトークンごとにルーターネットワークが2つのエキスパートグループを選んでその出力を結合する
  • この技術により、モデルのパラメータ数を増やしつつコストとレイテンシを制御できる。Mixtralは合計46.7Bのパラメータを持つが、トークンごとに使用するのは12.9Bのパラメータのみ

性能

  • MixtralはLlama 2モデルおよびGPT3.5ベースモデルと比較して、ほとんどのベンチマークで同等またはそれ以上の性能を示す。
  • MixtralはLlama 2 70Bモデルと比べて、より真実性の高い回答を提供し(TruthfulQAベンチマークで73.9%対50.2%)、BBQベンチマークではより少ないバイアスを示す。
  • Mixtralはフランス語、ドイツ語、スペイン語、イタリア語、英語を巧みに扱う。

指示追従モデル

  • Mixtral 8x7B Instructは、指示追従性能を最適化するために教師ありファインチューニングと直接選好最適化(DPO)を経ている。
  • MT-Benchで8.30のスコアを達成し、GPT3.5に匹敵する性能を持つ最高水準のオープンソースモデルとなった。

Mixtralのオープンソース配布スタックによるデプロイ

  • コミュニティが完全なオープンソーススタックでMixtralを実行できるよう、vLLMプロジェクトに変更を提出した。
  • 現在Mistral AIはMixtral 8x7Bを mistral-small エンドポイントの背後で使用しており、ベータ版として利用可能
  • すべての生成および埋め込みエンドポイントのアーリーアクセスに登録可能

2件のコメント

 
cosine20 2023-12-12

下のコメントでも言及されていますが、最初に8x7Bを見て、ではパラメータの総数は56Bなのか?と思いましたね。

 
GN⁺ 2023-12-12
Hacker Newsの意見
  • Andrej Karpathyの意見:

    • Mixtral 8x7Bに関する公式ポストと、vLLMの推論コードが公開された
    • HuggingFaceによるMoE(Mixture of Experts)の説明が有益
    • 70Bモデルの性能を、12.9Bの密なモデルの推論速度で達成
    • "open weights"という用語の使用に好意的な反応
    • "8x7B"という名前が誤解を招く可能性があると指摘
    • 各トークンとレイヤーが、8個のうち2個のエキスパートを選択する方式についての混乱に言及
    • Mistral-mediumモデルを紹介
  • Huggingfaceでのモデル利用可能性:

    • MistralaiとTheBlokeでMixtralモデルを利用可能
  • ソフトウェアエンジニア向けの説明要望:

    • Mixture of Expertsがどのように動作するのか理解する必要がある
  • Mixtral 8x7Bの規模に対する反応:

    • 45億パラメータを"small"モデルと見なすことへの興味を示す
  • AIの未来に対する展望:

    • MoEがAIの未来になるという前向きな見方
  • MoEの動作原理と長所・短所に関する質問:

    • 従来のモデルと比べてMoEにどのような利点があるのか説明が必要
  • モデルパラメータに関する混乱:

    • "8x7B"という名前と実際のパラメータ数、トークン生成時に使われるパラメータについて混乱を表明
  • Mistralのアプローチに関する説明:

    • CEOが、Mistralはモデルを検閲せず自由なアクセスを志向していると述べた
  • Mixtral 8x7Bの言語能力:

    • フランス語、ドイツ語、スペイン語、イタリア語、英語を巧みに扱う
  • モデルと重みについての情報要望:

    • モデルと重みへのリンクを求める
  • 市場競争力に関する質問:

    • GPT 3.5を上回るモデルを持ちながら、OpenAI/Googleとの競争でどのような機会があるのか、今後の見通しへの疑問