Mistral「Mixtral」8x7B 32kモデル【マグネット】 (twitter.com/MistralAI) 2 ポイント 投稿者 GN⁺ 2023-12-09 | 1件のコメント | WhatsAppで共有 関連記事 Mistral AI、新しい8x22B MOEモデルをリリース 1 ポイント · 1件のコメント · 2024-04-12 Mistral AI、新しいオープンモデル Mixtral 8x22B を公開 9 ポイント · 6件のコメント · 2024-04-18 Mistral AI、Llama 2 70Bモデルを上回るMixtral 8x7Bモデルを公開 12 ポイント · 2件のコメント · 2023-12-12 Mistral Voxtral Realtime 4B音声認識モデルの純CベースCPU専用推論実装 13 ポイント · 1件のコメント · 2026-02-12 Mixtral 8x7B: 疎な専門家混合言語モデル 1 ポイント · 1件のコメント · 2024-01-10 1件のコメント GN⁺ 2023-12-09 Hacker Newsの意見 Andrej Karpathyの意見: MistralAIの新しいオープンソースLLM(Large Language Model)の紹介 params.json ファイル内の注目すべき設定: hidden_dim / dim = 14336/4096 => MLP拡張は3.5倍 n_heads / n_kv_heads = 32/8 => マルチクエリは4倍 "moe" => Mixture of Expertsで上位2つのうち8倍 関連コードはGitHubで確認可能 AI革命に関する大げさなプロモーション動画はない NeurIPSという大規模なディープラーニングカンファレンスが近づいているため、多くのAIの動きが起きている 他のLLMの話題: Mistral/Yiは「neural alignment」という新しい技術でファインチューニングされたモデルを使い、Hugging Faceリーダーボードで他モデルを圧倒している 7Bモデルが大半の70Bモデルに「勝っている」 テスト中の34Bモデルは非常に良さそう この技術がMistral Moeに適用されれば、非常に優れたモデルになる可能性がある デスクトップで実行可能なOSSがGPT-4に挑戦する重要な変曲点になりうる Mistralのアプローチ: Mistralは説明にあまり気を配らないが、このスタイルはGoogleの磨き込まれた企業発表よりも信頼感を与える シンプルな発表方式: 90年代式のシンプルな発表を好む Mistralのモデル仕様: Mixture of Experts構造を持つ params.json ファイルを公開 MistralとGoogleの発表方式の比較: GoogleのGemini発表と対照的なMistralのモデル発表方式 MistralはStanfordのMegablocksをベースに学習されたように見える Mistralのマーケティング戦略: 他社がランディングページやプロモーション動画を重視する一方で、Mistralはシンプルにモデルを公開する Mistralの公開情報: Mixture of Expertsアーキテクチャを使用 7Bパラメータを持つ8つのエキスパート 重みは合計96GBで、一般的な家庭用GPUでは実行不可能
1件のコメント
Hacker Newsの意見
Andrej Karpathyの意見:
params.jsonファイル内の注目すべき設定:hidden_dim / dim = 14336/4096=> MLP拡張は3.5倍n_heads / n_kv_heads = 32/8=> マルチクエリは4倍"moe"=> Mixture of Expertsで上位2つのうち8倍他のLLMの話題:
Mistralのアプローチ:
シンプルな発表方式:
Mistralのモデル仕様:
params.jsonファイルを公開MistralとGoogleの発表方式の比較:
Mistralのマーケティング戦略:
Mistralの公開情報: