Mistral AI、新しいオープンモデル Mixtral 8x22B を公開

(mistral.ai)

9 ポイント投稿者 GN⁺ 2024-04-18 | 6件のコメント | WhatsAppで共有

「より安く、より優れ、より速く、より強力」
全141Bパラメータのうち39Bのアクティブパラメータのみを使用する Sparse Mixture-of-Experts（SMoE）モデルで、モデルサイズに対するコスト効率が非常に高い

Mixtral 8x22Bの主な特徴

英語、フランス語、イタリア語、ドイツ語、スペイン語に堪能
数学とコーディング能力に優れる
関数呼び出しを標準で利用でき、la Plateforme に実装された制約付き出力モードとあわせて、大規模アプリケーション開発と技術スタックのモダナイゼーションが可能
64Kトークンのコンテキストウィンドウにより、大量の文書から正確な情報リコールが可能

真のオープンモデル

Mistral AI は、AIにおけるイノベーションと協業を促進するため、オープン性と広範な普及の力を信じている
Mixtral 8x22B は、最も寛容なオープンソースライセンスである Apache 2.0 で配布され、誰でも制限なくモデルを利用できる

最高の効率性

Mistral AI は、各モデルサイズに対してコストあたり最高の性能を提供するモデルを構築し、コミュニティで提供されるモデルの中で最高レベルの性能対コスト比を実現している
Mixtral 8x22B は、Mistral AI のオープンモデル製品群の自然な延長線上にある。Sparse な活性化パターンのおかげで Dense 70B モデルより高速でありながら、寛容または制限付きライセンスで配布される他のオープンウェイトモデルより多くの機能を提供する。ベースモデルが利用可能であるため、ファインチューニング用途に非常に適した基盤となる

比類のないオープン性能

推論と知識

Mixtral 8x22B は推論に最適化されている
常識、推論、知識ベンチマーク（MMLU、HellaSwag、Wino Grande、Arc Challenge、TriviaQA、NaturalQS）で、トップクラスの LLM オープンモデルの中でも最高の性能を示す

多言語機能

Mixtral 8x22B は基本的な多言語機能を備えている
フランス語、ドイツ語、スペイン語、イタリア語による HellaSwag、Arc Challenge、MMLU ベンチマークで LLaMA 2 70B を大きく上回る

数学とコーディング

Mixtral 8x22B は、他のオープンモデルと比べてコーディングおよび数学タスクで最も優れた性能を示す
コーディングおよび数学ベンチマーク（HumanEval pass@1、MBPP pass@1、GSM8K maj@1/8、Math maj@4）で、主要なオープンモデルの中でも最高の性能を示す
本日発表された Mixtral 8x22B の Instructed バージョンは数学性能がさらに高く、GSM8K maj@8 で 90.8%、Math maj@4 で 44.6% を記録

GN⁺の見解

Mixtral 8x22B は Mistral のオープンモデルの中で最大規模でありながら、Sparsity を活用してコスト対効果が非常に高いモデルである。これはオープンソース LLM モデルの発展方向の1つとして注目に値する
モデルサイズに対して優れた多言語性能、数学・コーディング能力は Mixtral 8x22B 独自の差別化ポイントと見られる。ただし英語以外の言語では対応言語の幅が狭く、GPT-4 など最新の LLM と比べるとコーディングや数学能力も見劣りする水準である
Apache 2.0 ライセンスの適用により誰でも自由に活用できる点は利点だが、悪用の可能性も高いと見られる。オープンソース AI モデルの責任ある開発と活用に向けたコミュニティのさらなる努力が必要だと思われる
Mixtral モデルを活用したアプリケーション開発と技術スタックのモダナイゼーションが可能な点は魅力的だが、大規模サービスに適用するにはまだ技術面・コスト面の限界があるように見える。ただし、オープンソース基盤のイノベーション事例は今後増えていくと期待される
日本国内では Sakana AI なども独自LLMの開発を進めている。日本語処理性能など日本市場特化の面では、こうしたモデルが競争力を持つ可能性がある

6件のコメント

ninebow 2024-04-19

Mixtral 8x22B ベースモデル: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Mixtral 8x22B Instruct モデル: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1

dormis 2024-04-19

Azure AI Studioではすでに使えるように登録されていますね。 (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

vkehfdl1 2024-04-18

Polyglotはカカオブレインではなく、TUNiB AIとEleutherAIが作りました。幻覚症状がありますね（泣）

xguru 2024-04-19

あ、そうですね。修正しておきました。ありがとうございます。

xguru 2024-04-18

Claude Opus に意見を求めると、たまにこうして韓国国内の話を入れてきますね。興味深いです（笑）

GN⁺ 2024-04-18

Hacker Newsの意見

要約:

税金に関する質問をChatGPTに入れてみたら、エッセイ作成サービスの広告が表示された
"Mixture-of-Experts" の概念についてのわかりやすい説明を求める声
- 下位の専門家がいるという概念は理解できるが、学習中に各専門分野がどのように決まるのか気になる
64Kトークンのコンテキストウィンドウサイズへの物足りなさ
- GPT-4 Turboの128Kに届かなかったことが、今後の冗談の種になるかもしれない
- 将来的には1兆トークン規模まで増えると予想
MacBook ProでLLMを実行する最善の方法についての質問
- LMStudio はインターフェースが好みではなく、Ollama はCLIの使い勝手が不便
- OpenAIのように設定を細かく調整でき、プロンプト編集がしやすいソリューションを好む
オープンモデルの限界
- 学習データにアクセスできなければモデルを複製できない
Mistral シリーズとの性能比較結果
AIスタートアップを運営する利点
- 新しい大規模モデルがリリースされるたびに製品が自動的に改善される
"non-instructed" バージョンのLLMが、"instructed" バージョンのガイドなし版なのかという質問
LLMによってRAMの重要性が再び注目される
- MacBook Proに追加で32GBのRAMを載せなかったことを後悔している
量子化モデルへの期待
- 64GBのMacBook Proで実行可能な3ビットモデルを希望