Mistral AI、新しい8x22B MOEモデルをリリース (twitter.com/MistralAI) 1 ポイント 投稿者 GN⁺ 2024-04-12 | 1件のコメント | WhatsAppで共有 関連記事 Mistral AI、新しいオープンモデル Mixtral 8x22B を公開 9 ポイント · 6件のコメント · 2024-04-18 Mistral「Mixtral」8x7B 32kモデル【マグネット】 2 ポイント · 1件のコメント · 2023-12-09 Mistral AI、Llama 2 70Bモデルを上回るMixtral 8x7Bモデルを公開 12 ポイント · 2件のコメント · 2023-12-12 インタラクションモデル - 人間とAIの協働のためのスケーラブルなアプローチ 8 ポイント · 2件のコメント · 7 일 전 Mixtral 8x7B: 疎な専門家混合言語モデル 1 ポイント · 1件のコメント · 2024-01-10 1件のコメント GN⁺ 2024-04-12 Hacker Newsの意見 モデルの実行には、Ollama、Llama.cpp、またはPythonライブラリなどのツールを使用できる。モデルの半分ほどをRAMにロードすることも可能。 モデル性能を比較するためのベンチマークには、Hugging Faceが提供する非公式ベンチマークを活用できる。ただし、これはbaseモデルに対するものであり、実際のチャットで使われるinstruct fine-tunedモデルとは違いがある点に注意が必要。 Mixtral-8x22B-v0.1モデルが以前のMixtral 8x7Bモデルと同じくらい良い性能を示すなら、非常に期待できるモデルだ。 ChatGPT 4が当初「魔法のように動作する」と評価されていた水準の性能に戻れるかどうかに関心がある。ポリティカル・コレクトネスのために性能が下がったことを惜しむ声もある。 Llama3のリリース前に、誰もが最高の小型モデルを出そうと競争している状況に見える。 4-bit量子化により85GBのVRAMが必要になるため、24Gのコンシューマー向けGPU 4枚で十分に動かせる。KVキャッシュ最適化のための余裕もある。 モデルの重みが公開されてから1日以上経っているにもかかわらず、Mistralから公式発表やモデルカードが提供されておらず、Mistral自体のプラットフォームでも使えない点は奇妙だ。
1件のコメント
Hacker Newsの意見