Mistral「Mixtral」8x7B 32kモデル【マグネット】 (twitter.com/MistralAI) 2 ポイント 投稿者 GN⁺ 2023-12-09 | 1件のコメント | WhatsAppで共有 関連記事 Mistral AI、新しい8x22B MOEモデルをリリース 1 ポイント · 1件のコメント · 2024-04-12 Mistral AI、新しいオープンモデル Mixtral 8x22B を公開 9 ポイント · 6件のコメント · 2024-04-18 Mistral AI、Llama 2 70Bモデルを上回るMixtral 8x7Bモデルを公開 12 ポイント · 2件のコメント · 2023-12-12 Mistral Voxtral Realtime 4B音声認識モデルの純CベースCPU専用推論実装 13 ポイント · 1件のコメント · 2026-02-12 Mixtral 8x7B: 疎な専門家混合言語モデル 1 ポイント · 1件のコメント · 2024-01-10 1件のコメント GN⁺ 2023-12-09 Hacker News の意見 別の LLM ニュースとして、まだ文書化されていない neural alignment という新手法で学習された Mistral/Yi のファインチューニングモデルが、Hugging Face のリーダーボードで他のモデルを大きく引き離している 7B がほとんどの 70B モデルに「勝って」おり、テスト中の 34B も非常に良さそう https://huggingface.co/fblgit/una-xaberius-34b-v1beta https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16 理論上はこの手法を Mistral MoE にも適用できるため、通常の Mistral 7B と同じ伸び幅が出て、Mistral MoE 自体も優れているなら、成果物はかなり恐ろしいモデルになり得る デスクトップで実行可能な オープンソースモデル が、GPT-4 を本当にぴったり追いかけ始める転換点かもしれない 7B 版を使ってみたが、以前試したものとは明らかに違って感じた Docker Compose ファイルを説明できたし、簡単な Vue アプリケーションのコンポーネントも生成できた 例についてもう少し質問してみると、会話全体を通じて妙なほど一貫していて集中力が高く、文脈を消していない状態でも新しい話題に移っているのか、前の内容を指しているのかをうまく区別していた 特に “What does following mean [docker compose 内容]” と聞いたところ、cybertron-7b が「提示された YAML 設定において ‘following’ は依存関係の指定を意味します」のように、こちらの表現をそのまま引用符で囲んで答えた。こんなふうに会話中の正確な表現を引用するモデルは初めて見た 興味が湧いたので、最小のバリエーションを対象に TheBloke の GGUF 版[1]で ollama modelfile を作ってみたが、これほど小さいモデルにしては本当に GPT-4 っぽさがかなり残っている 以前ローカル LLM として主に使っていた openhermes2.5-mistral よりも一貫しているように感じる ollama がインストール済みなら、ollama run nollama/una-cybertron-7b-v2 で実行してみられる [1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF そう。UNA は MoE を複数の層、エキスパート、ほぼニューラルネットワークのどの部分にもアラインできるように見える Xaberius 34B v1 “BETA” が王者だが、文字どおりまだベータにすぎない これから Mixtral に集中する予定で、こんなふうにモジュール式なのでクリスマスプレゼントみたいだ。実験室を開放してくれた @mistral に感謝 もはや LLM ベンチマークは、よくても無意味で、悪ければ嘘に近いのでは? その通り。Mistral は「安全性学習」でモデルを 去勢するように弱体化 させることにあまり気を使っていない だから Anthropic/Google/OpenAI よりもパラメータあたりの性能がはるかに高く、それでいて操作可能性もより高いかもしれない Andrej Karpathy の解釈: @MistralAI の新しい オープンウェイト LLM params.json によると hidden_dim / dim = 14336/4096 => 3.5X MLP 拡張, n_heads / n_kv_heads = 32/8 => 4X multiquery, "moe" => 専門家混合 8X top 2 関連コードと思われるもの: https://github.com/mistralai/megablocks-public 不思議なことに、「AI の革命」を語る、過剰にリハーサルされたプロ仕様のローンチ動画はない 今 AI 関連の動きがやたら多い理由が気になるなら、最大のディープラーニング学会である NeurIPS が来週だから https://twitter.com/karpathy/status/1733181701361451130 NeurIPS が来週なら、複数の企業から新アーキテクチャやモデルのような 大きな発表 を期待してもいいのだろうか?研究学会の文化に詳しくないので気になる hidden_dim / dim = 14336/4096 => 3.5X MLP 拡張 と n_heads / n_kv_heads = 32/8 => 4X はどちらも既存の Mistral-7B とまったく同じ EMNLP 2023 も今開催中なので、発表が集中している Mistral は説明にあまり力を入れていないようだが、このやり方のほうが Google の洗練されていて企業的で魂のない Gemini 発表 より、製品にずっと信頼感を与える ドキュメントより 重みの公開 のほうが良い Google 社員が Gemini の重み、それも小さなモバイル版 Gemini だけを公開したことを、他社より寛大な措置であるかのように自慢していた姿を思い出す 大げさな発表は本当に必要なのか?90年代方式でやればいい: https://twitter.com/erhartford/status/1733159666417545641/ph... 明らかに操作されていて非現実的なマーケティングページや動画を出すより、はるかに 大胆で自信のあるやり方 に見える 専門家混合(MoE)のようで、params.json は次のとおり { "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } } この文脈で 専門家 とは正確には何を意味するのか? そこにはコードが見当たらないが、どのランタイムならこの重みをロードできるのか? 目標がまったく似ている会社というわけではないが、このモデル発表を2日前の Google の Gemini 発表 と対比すると、かなり笑える 今週初めの Google の「デモだけでモデルはない」アプローチとは鮮明な対照 Stanford の Megablocks で学習したように見える: https://github.com/mistralai/megablocks-public 議論の余地はあるかもしれないが、Mistral 7Bこそが実際の LLM の最先端だと思う ChatGPT 4 が驚異的なのは確かで、初日から購読してきたが、巨大で遠く離れたサーバーファーム上で動いていて、ほとんどブラックボックスだ Mistral は小さく、サイズの割に一般的な質問でもコードでも驚くほど一貫して有用で、検閲もなく、1年で可能になるとは信じがたい飛躍だ MacBook Air で 12 tok/s で動かせるし、デスクトップで試すのが楽しみだ MacBook Air で実行できる範囲では最先端だが、LLM 全体やオープンソース全体の最先端ではない Yi 34B と Llama2 70B のほうがまだ優れている インターネットで消費される情報の 50% が直近 24 時間以内に作られたものだとすれば、小さなモデルは大きなモデルに対してかなり大きな利点を持ち得る LLM や SmallLM を毎週、あるいは毎日継続的に再学習またはファインチューニングして最新情報を反映できるなら、1〜2年前に学習された古いモデルは追いつきにくい ライセンスは分からないが、OpenAI が Mistral7B のような小さなモデルを GPT スタックに入れ、毎週ゼロから再学習してから GPT-4 と同じ価格を取ることもあり得る 性能は弱くても最新性のあるモデルを好むユーザーは確実にいると思う 同意する。Mistral 7B は本当に驚くほど良い Intel 版や Berkeley Starling のようなファインチューニングモデルは、7B にすぎないのに gpt3.5T にかなり近い感じがする 13B Mistral を本当に期待していたが、この MoE が 24GB 3090 で動くかは分からない 量子化、オフロード、今後出てくる手法で実行可能になることを願う MacBook Air で 12 tok/s なら少し低く見える llama.cpp で Metal GPU アクセラレーションを使っている? MacBook は持っていないが、llama.cpp のベンチマークを見ると GPU アクセラレーションでほぼ 30 tok/s まで行けそうだった 本当にそうだ。少なくとも llama2 13b と同等に感じる mistral 70b が存在し、7b サイズで llama2 に対して見せた改善幅と同じだけ llama2 70b より優れていたなら、間違いなく gpt3.5 に近い水準だったはずだ いまは実験的に動作する Hugging Face 版がある: https://huggingface.co/DiscoResearch/mixtral-7b-8expert Google は偽デモ、Mistral はマグネットリンクひとつで終わらせた
1件のコメント
Hacker News の意見
別の LLM ニュースとして、まだ文書化されていない neural alignment という新手法で学習された Mistral/Yi のファインチューニングモデルが、Hugging Face のリーダーボードで他のモデルを大きく引き離している
7B がほとんどの 70B モデルに「勝って」おり、テスト中の 34B も非常に良さそう
https://huggingface.co/fblgit/una-xaberius-34b-v1beta
https://huggingface.co/fblgit/una-cybertron-7b-v2-bf16
理論上はこの手法を Mistral MoE にも適用できるため、通常の Mistral 7B と同じ伸び幅が出て、Mistral MoE 自体も優れているなら、成果物はかなり恐ろしいモデルになり得る
デスクトップで実行可能な オープンソースモデル が、GPT-4 を本当にぴったり追いかけ始める転換点かもしれない
Docker Compose ファイルを説明できたし、簡単な Vue アプリケーションのコンポーネントも生成できた
例についてもう少し質問してみると、会話全体を通じて妙なほど一貫していて集中力が高く、文脈を消していない状態でも新しい話題に移っているのか、前の内容を指しているのかをうまく区別していた
特に “What does following mean [docker compose 内容]” と聞いたところ、cybertron-7b が「提示された YAML 設定において ‘following’ は依存関係の指定を意味します」のように、こちらの表現をそのまま引用符で囲んで答えた。こんなふうに会話中の正確な表現を引用するモデルは初めて見た
以前ローカル LLM として主に使っていた openhermes2.5-mistral よりも一貫しているように感じる
ollama がインストール済みなら、
ollama run nollama/una-cybertron-7b-v2で実行してみられる[1]: https://huggingface.co/TheBloke/una-cybertron-7B-v2-GGUF
Xaberius 34B v1 “BETA” が王者だが、文字どおりまだベータにすぎない
これから Mixtral に集中する予定で、こんなふうにモジュール式なのでクリスマスプレゼントみたいだ。実験室を開放してくれた @mistral に感謝
だから Anthropic/Google/OpenAI よりもパラメータあたりの性能がはるかに高く、それでいて操作可能性もより高いかもしれない
Andrej Karpathy の解釈:
@MistralAI の新しい オープンウェイト LLM
params.json によると
hidden_dim / dim = 14336/4096 => 3.5X MLP 拡張,n_heads / n_kv_heads = 32/8 => 4X multiquery,"moe" => 専門家混合 8X top 2関連コードと思われるもの:
https://github.com/mistralai/megablocks-public
不思議なことに、「AI の革命」を語る、過剰にリハーサルされたプロ仕様のローンチ動画はない
今 AI 関連の動きがやたら多い理由が気になるなら、最大のディープラーニング学会である NeurIPS が来週だから
https://twitter.com/karpathy/status/1733181701361451130
hidden_dim / dim = 14336/4096 => 3.5X MLP 拡張とn_heads / n_kv_heads = 32/8 => 4Xはどちらも既存の Mistral-7B とまったく同じMistral は説明にあまり力を入れていないようだが、このやり方のほうが Google の洗練されていて企業的で魂のない Gemini 発表 より、製品にずっと信頼感を与える
Google 社員が Gemini の重み、それも小さなモバイル版 Gemini だけを公開したことを、他社より寛大な措置であるかのように自慢していた姿を思い出す
大げさな発表は本当に必要なのか?90年代方式でやればいい: https://twitter.com/erhartford/status/1733159666417545641/ph...
専門家混合(MoE)のようで、
params.jsonは次のとおり{ "dim": 4096, "n_layers": 32, "head_dim": 128, "hidden_dim": 14336, "n_heads": 32, "n_kv_heads": 8, "norm_eps": 1e-05, "vocab_size": 32000, "moe": { "num_experts_per_tok": 2, "num_experts": 8 } }目標がまったく似ている会社というわけではないが、このモデル発表を2日前の Google の Gemini 発表 と対比すると、かなり笑える
今週初めの Google の「デモだけでモデルはない」アプローチとは鮮明な対照
Stanford の Megablocks で学習したように見える: https://github.com/mistralai/megablocks-public
議論の余地はあるかもしれないが、Mistral 7Bこそが実際の LLM の最先端だと思う
ChatGPT 4 が驚異的なのは確かで、初日から購読してきたが、巨大で遠く離れたサーバーファーム上で動いていて、ほとんどブラックボックスだ
Mistral は小さく、サイズの割に一般的な質問でもコードでも驚くほど一貫して有用で、検閲もなく、1年で可能になるとは信じがたい飛躍だ
MacBook Air で 12 tok/s で動かせるし、デスクトップで試すのが楽しみだ
Yi 34B と Llama2 70B のほうがまだ優れている
LLM や SmallLM を毎週、あるいは毎日継続的に再学習またはファインチューニングして最新情報を反映できるなら、1〜2年前に学習された古いモデルは追いつきにくい
ライセンスは分からないが、OpenAI が Mistral7B のような小さなモデルを GPT スタックに入れ、毎週ゼロから再学習してから GPT-4 と同じ価格を取ることもあり得る
性能は弱くても最新性のあるモデルを好むユーザーは確実にいると思う
Intel 版や Berkeley Starling のようなファインチューニングモデルは、7B にすぎないのに gpt3.5T にかなり近い感じがする
13B Mistral を本当に期待していたが、この MoE が 24GB 3090 で動くかは分からない
量子化、オフロード、今後出てくる手法で実行可能になることを願う
llama.cpp で Metal GPU アクセラレーションを使っている? MacBook は持っていないが、llama.cpp のベンチマークを見ると GPU アクセラレーションでほぼ 30 tok/s まで行けそうだった
mistral 70b が存在し、7b サイズで llama2 に対して見せた改善幅と同じだけ llama2 70b より優れていたなら、間違いなく gpt3.5 に近い水準だったはずだ
いまは実験的に動作する Hugging Face 版がある: https://huggingface.co/DiscoResearch/mixtral-7b-8expert
Google は偽デモ、Mistral はマグネットリンクひとつで終わらせた