Mistral AI、新しい8x22B MOEモデルをリリース (twitter.com/MistralAI) 1 ポイント 投稿者 GN⁺ 2024-04-12 | 1件のコメント | WhatsAppで共有 関連記事 Mistral AI、新しいオープンモデル Mixtral 8x22B を公開 9 ポイント · 6件のコメント · 2024-04-18 Mistral「Mixtral」8x7B 32kモデル【マグネット】 2 ポイント · 1件のコメント · 2023-12-09 Mistral AI、Llama 2 70Bモデルを上回るMixtral 8x7Bモデルを公開 12 ポイント · 2件のコメント · 2023-12-12 Mistral AI Now Summit メモ 2 ポイント · 1件のコメント · 2026-05-30 Mixtral 8x7B: 疎な専門家混合言語モデル 1 ポイント · 1件のコメント · 2024-01-10 1件のコメント GN⁺ 2024-04-12 Hacker Newsの意見 重みとハードウェアがあるとして、このモデルを一番簡単に動かす方法が気になる モデルの半分をRAMにオフロードするとしても、どのツールでロードすべきか、OllamaなのかLlama.cppなのか、それともPythonライブラリに持っていけばよいのか知りたい また、他のモデルと比較するならベンチマークをどう取るのがよいのか、すぐ使えるツールがあるのかも気になる llamafile方式が一番よさそう バイナリがコマンドラインで動くか、小さなWebサーバーを立ち上げてくれる llamafileはMixtral-8x7B-Instructビルドを提供しているので、このモデルもおそらくパッケージ化でき、量子化形式である可能性もある エコシステムにもっと詳しい人への確認は必要だが、新しいモデルもそのままllamafileで動かせそう https://github.com/Mozilla-Ocho/llamafile 一番簡単な方法は、vllm(https://github.com/vllm-project/vllm)でA100を2枚くらい使って動かすことで、ベンチマークはlm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)で可能 MacBookでLLMを試すにはLM Studioがすばらしい: https://lmstudio.ai/ アプリ内でHugging Faceの新モデルを検索して、そのまますぐ試すのがとても簡単 Hugging FaceにはThe Blokeというユーザーがいて、フルサイズのモデルが出てからほどなく事前量子化済みモデルを上げてくれる そのページを見張りつつ、4ビットモデルがGPUに収まることを祈ればよい すでに作業中だと思う Togetherでここから試せる: https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B 重複投稿はこちら: https://news.ycombinator.com/item?id=39986047 プロフィールではなくツイートへのリンクが入った投稿: https://twitter.com/MistralAI/status/1777869263778291896 8x22Bとは、これがMixtral 8x7B並みに良いなら本当に面白い時期になりそう Command RがベンチマークでGPT-4に勝った最初のオープンソースだと聞いた すでに8x7Bがあるのに、別の8x7Bを欲しがる理由はないのだから、より良いということだろう? 話題から少し外れるが、あの魔法のようだと言われていた頃のChatGPT 4の性能に、もう戻ってきたのか気になる 政治的により正しくする中で性能が大きく落ちる前の基準のこと MacBookで複数のLLMを試したが、どの時点のGPT-4と比べても、まだどれもかなり及ばないと思う ただしGPT-3級のモデルは多く、特定の作業向けにファインチューニングされたモデルもかなりある オープンモデルで大きく欠けているのは言語サポート ノルウェー語で実用的な結果を出せるモデルは1つしか見たことがなく、GPT-4では一度も問題になったことがなかった オープンモデル基準では、少なくともChatGPT 4初期リリースの性能には到達したと思う Llama 3が出る前に、それぞれ最高の小型モデルを出そうという競争なのか? 262GBはとても小さいとは言いにくい それでも、もしLlama 3より悪い結果になれば後から出すのは気まずくなりそうなので、今のうちに出している雰囲気がある Llama 3が今後2週間以内に出るという噂を見ると、かなりありそう Mixtral 8x7Bは使っていて良かったし、このモデルも試すのが楽しみ 非公式ベンチマークはこちら: https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4 ここにGPT-4もあってほしい まだ超えるべき相手はそのモデル 4ビット量子化ならVRAM 85GBが必要になりそうなので、24GBの民生用GPU 4枚にちょうど収まり、KVキャッシュ最適化用の余裕も少し残るはず 4ビットならこれより少なくて済む可能性がある エキスパートモデル間で共有されるパラメータがかなりあるため ただし、バッチサイズ1で回すのでなければ、8枚GPU構成よりつらいかもしれない バッチ内で大半またはすべてのエキスパートが有効になる可能性がほぼ確実にある Mixtral 8x7Bの2ビット量子化は、8GB GPUでも一部用途ではそこそこ使えた この新モデルが8〜16GB級の安価なGPU構成でどう動くのか気になる これはベースモデルであって指示追従モデルではない、という点がとても重要 チャットに役立つのは指示チューニングされたモデル 強力なベースモデルをそのまま使うとどんな感じなのか気になる ただプロンプトのテキストを続けるように補完する感じなのだろうか? Llama 3が公開されるタイミングにぴったり合わせてきた 同じ日にGoogle Gemini Proがほぼ完全なオープンな長文コンテキストのマルチモーダルアクセスを出し、OpenAIもGPT-4-Turboをアップグレードしたので、ニュースが殺到した大きな一日だった
1件のコメント
Hacker Newsの意見
モデルの半分をRAMにオフロードするとしても、どのツールでロードすべきか、OllamaなのかLlama.cppなのか、それともPythonライブラリに持っていけばよいのか知りたい
また、他のモデルと比較するならベンチマークをどう取るのがよいのか、すぐ使えるツールがあるのかも気になる
バイナリがコマンドラインで動くか、小さなWebサーバーを立ち上げてくれる
llamafileはMixtral-8x7B-Instructビルドを提供しているので、このモデルもおそらくパッケージ化でき、量子化形式である可能性もある
エコシステムにもっと詳しい人への確認は必要だが、新しいモデルもそのままllamafileで動かせそう
https://github.com/Mozilla-Ocho/llamafile
アプリ内でHugging Faceの新モデルを検索して、そのまますぐ試すのがとても簡単
そのページを見張りつつ、4ビットモデルがGPUに収まることを祈ればよい
すでに作業中だと思う
https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
プロフィールではなくツイートへのリンクが入った投稿:
https://twitter.com/MistralAI/status/1777869263778291896
政治的により正しくする中で性能が大きく落ちる前の基準のこと
ただしGPT-3級のモデルは多く、特定の作業向けにファインチューニングされたモデルもかなりある
オープンモデルで大きく欠けているのは言語サポート
ノルウェー語で実用的な結果を出せるモデルは1つしか見たことがなく、GPT-4では一度も問題になったことがなかった
それでも、もしLlama 3より悪い結果になれば後から出すのは気まずくなりそうなので、今のうちに出している雰囲気がある
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
まだ超えるべき相手はそのモデル
エキスパートモデル間で共有されるパラメータがかなりあるため
ただし、バッチサイズ1で回すのでなければ、8枚GPU構成よりつらいかもしれない
バッチ内で大半またはすべてのエキスパートが有効になる可能性がほぼ確実にある
この新モデルが8〜16GB級の安価なGPU構成でどう動くのか気になる
チャットに役立つのは指示チューニングされたモデル
ただプロンプトのテキストを続けるように補完する感じなのだろうか?