- Mistral 3 シリーズは、3B、8B、14Bの小型モデルと、41Bアクティブ・675B総パラメータを持つMistral Large 3で構成される次世代オープンソースAIモデル群
- すべてのモデルがApache 2.0 ライセンスで公開され、開発者と企業が自由に活用・カスタマイズ可能
- Mistral Large 3はNVIDIA H200 GPU 3000台で学習されたMixture-of-Experts構造を採用し、多言語対話と画像理解で最高水準の性能を達成
- Ministral 3はエッジ環境向けに設計され、コスト対効果が高く、推論(reasoning)派生モデルはAIME '25で85%精度を記録
- Mistral 3はMistral AI Studio、Hugging Face、AWS、Azureなど主要プラットフォームで即時利用可能で、オープンAIエコシステムの拡大を目指す
Mistral 3 の概要
- Mistral 3はMistral AIの次世代モデル群で、軽量密集モデル(3B、8B、14B)と大規模スパースモデルMistral Large 3で構成
- Mistral Large 3は41Bアクティブパラメータ、675B総パラメータを持つMixture-of-Experts(MoE)構造
- すべてのモデルはApache 2.0 ライセンスで公開され、オープンソースコミュニティで活用可能
- モデルはさまざまな圧縮フォーマットで提供され、分散インテリジェンスを通じてアクセシビリティを向上
- Ministralモデル群はコスト対効果が最も高いOSSモデルとして評価
Mistral Large 3: オープンウェイトベースの最上位モデル
- Mistral Large 3はNVIDIA H200 GPU 3000台でゼロから学習されたオープンウェイトモデル
- Mixtralシリーズ以降の初のMixture-of-Expertsモデルで、Mistralの事前学習技術の進化を反映
- 学習後、一般プロンプト性能において最高水準のオープンウェイトモデルと同等の性能を示し、
画像理解と英語以外の多言語対話でも優れた結果を達成
- LMArenaリーダーボードでOSS非推論(non-reasoning)モデル2位、全OSSモデル6位を記録
- ベース(base)およびインストラクション(instruct)チューニング版が公開され、推論(reasoning)版は近日公開予定
NVIDIA・vLLM・Red Hatとの協力
- Mistral Large 3はvLLMおよびRed Hatと協力し、オープンソースコミュニティから簡単にアクセス可能に
- llm-compressorで作成されたNVFP4フォーマットチェックポイントを提供
- vLLMを通じてBlackwell NVL72、8×A100、8×H100システムで効率的な実行が可能
- NVIDIAとの協力でTensorRT-LLM、SGLangなどで低精度推論をサポート
- BlackwellアテンションおよびMoEカーネル、prefill/decode分離サービング、推測デコード(speculative decoding) 機能を統合
- DGX Spark、RTX PC、Jetsonデバイスなどエッジ環境でも最適化されたデプロイをサポート
Ministral 3: エッジ向け知能モデル
- エッジおよびローカル環境向けのMinistral 3シリーズは3B、8B、14Bの3種類のサイズで提供
- 各モデルはbase、instruct、reasoningの3種類の変形で公開
- すべての変形に画像理解と多言語処理機能を搭載
- コスト対効果が最も高いOSSモデルで、
instructモデルは競合モデルと同等またはそれ以上の性能を示し、トークン数を10分の1レベルで削減
- reasoning派生モデルは精度重視の環境で強みを発揮し、
14BモデルがAIME '25で85%精度を達成
配信とアクセシビリティ
- Mistral 3は以下のプラットフォームで即時利用可能
- Mistral AI Studio、Amazon Bedrock、Azure Foundry、Hugging Face、Modal、IBM WatsonX、OpenRouter、Fireworks、Unsloth AI、Together AI
- 近日中にNVIDIA NIMおよびAWS SageMakerでも提供予定
- 企業向けカスタムモデル学習サービスを提供
- ドメイン特化タスク、独自データセットの性能向上、特殊環境デプロイなどをサポート
Mistral 3のコアバリュー
- フロンティア性能とオープンアクセス: クローズドモデル級の性能をオープンソースで提供
- マルチモーダル・多言語サポート: 40以上の言語でテキスト、画像、論理理解が可能
- 拡張可能な効率性: 3B〜675Bパラメータ範囲で、エッジからエンタープライズまで対応
- 適応的活用性: コーディング、文書分析、ツール活用などさまざまなワークフローに適用可能
今後のステップ
- モデルドキュメントと技術資料はMistral DocsとAI Governance Hubで提供
- Hugging FaceおよびMistral AIプラットフォームを通じて即時API利用可能
- 企業向けのカスタム学習とファインチューニングの問い合わせ窓口を運用
- コミュニティ参加はTwitter/X、Discord、GitHubで可能
結論
- Mistral 3は透明性、アクセシビリティ、共同発展を基盤に、オープンAIエコシステムの拡大を目指す
- 推論、効率性、実用アプリケーションで新たな可能性を開き、
「理解を行動へと転換する」次世代のオープンモデルとして位置づけ
1件のコメント
Hacker Newsのコメント
私は phrasing.app で**大規模言語モデル(LLM)**を使ってデータを一貫した形式に整理している
数か月前に mistral-3-medium-0525 に切り替えたが、gpt-5 が妙な出力を頻繁に出すので苦労していた
Mistral は速くて安く、フォーマット指示にも正確に従う。ベンチマークより実運用でずっと優れている
ごくたまに(0.1%)おかしな結果を出すが、gpt-5 の 15% の失敗率と比べればはるかに安定している
新モデルも近いうちに試して、結果を共有する予定だ
API では、モデルが期待どおりに動作することが最大の利点だと感じる
今は Openrouter 経由で必要なモデルを選んで使っている
最近広告ベースのチャットボットが増えているのは、ベンチマークと違って実際の利用者は差を感じられず、有料サブスクリプションを解約しているからだと思う
今日も OpenAI が 1 か月の無料体験を提案してきたが、2 か月前にも使ったことを忘れているようだ
とくに mistral-small を batch API で使うと、コストパフォーマンスが非常に高い
過学習が実用性を損なうこともありうるし、Chatbot Arena が生まれたのもこうした実使用ベースの評価のためだった
しかしそれですら、フォーマット合わせやおべっかのような要素に偏るという指摘がある
結局のところ、タスク別に特化したモデルがもっと必要だと思う
ただ、phrasing.app の「Hand-crafted by humans」という文言は、実際には高度な LLM を使っている点で少し皮肉に感じられた
もしかして Mistral のエラー率を gpt-5.1 の複雑なタスクでの失敗率と比較したのだろうか?
それと、Mistral にTool Use モデルがあるのかも気になる。新しいコーディング向けモデルが出たらうれしい
新しい大規模モデルが DeepseekV2 アーキテクチャを使っている点が興味深い
公式ページでは触れられていないが、オープンソースモデルが最新の構造を採用するのは良いことだと思う
K2 も似たようなアプローチを取っていて、実際のコード(
mistral_large_3.py)を見ると DeepseekV3 ベースだ「科学は常に開放と共有の上で発展する」という言葉のように、こうした透明性は歓迎したい
これから自宅で 14B モデルを試す予定で、Vision 機能が追加された点にも期待している
Hugging Face のページでも、Mistral Large 3 はマルチモーダル作業では Vision 特化モデルに劣ると明記されている
3B Vision モデルがブラウザ上で直接動くのは驚きだ
3GB のモデルをダウンロードすればすぐ実行でき、Hugging Face デモ もある
Simon Willison の記事 も参考になる
単なる音声だけでなく、映像内の動作まで説明してくれる機能を想像している
ヨーロッパの Mistral が久しぶりに戻ってきてうれしい
Apache 2.0 ライセンスでオープンソースに復帰したのも前向きだ
しばらくの間、コンシューマー GPU 向け小型モデルでは最高だったし、今回の Ministral 14B もベンチマークどおりの性能が出ることを期待している
ヨーロッパ内部だけでは、この規模の AI 学習資金を得るのは難しかったはずだ
新モデルは魅力的だが、OpenAI・Google・Anthropic のような SOTA モデルとの比較がないのは残念だ
全体の位置づけを把握しにくいからだ
最高モデルが 1491 点、Mistral が 1418 点なので、性能差は小さい
GPT-OSS とも比較しないのは、やや保守的な動きに見える
ヨーロッパの取り組みを応援している
正直、Deepseek 3.2 が昨日すべての注目をさらっていった感じだ
今回の比較が Deepseek 3.1 基準なのは少し残念だ
公式ニュース によれば、3.2 では大幅な改善があった
良いモデル重みを公開するインセンティブがいまだによく分からない
OpenAI が gpt-oss のようなベンチマーク向けモデルを出すのは PR 目的かもしれないし、
中国企業も米国ビッグテックの立場を揺るがすために似た戦略を取っているように見える
今後もそれなりに良いオープンウェイトモデルが出続けるのか疑問だ
オープンウェイトは、企業向けファインチューニングサービスのような二次的な収益チャネルを開いてくれる
透明性、制御、プライバシー、コスト削減は企業にとって重要なので、
こうしたオープンなエコシステムが長期的にクローズドモデルを侵食する可能性はある
関連サービスは Mistral Custom Model Training を参照
Kaggle の AIME3 大会でも上位を維持している
オープンモデルを公開すると企業価値が急騰し、GPU の確保に有利になる
ただし、持続可能なビジネスモデルが結局出てこないなら大きな問題だ
Gemini はベンチマークでは先行していても、実際の使い勝手は落ちる
複数モデルの総合ベンチマークスコアを比べてみた
Gemini 3.0 Pro が 84.8 で 1 位、DeepSeek 3.2 が 83.6、GPT-5.1 は 69.2 だ
Mistral Large 3 は 41.9 と低いが、14B・8B・3B モデルは SOTA 水準で、
Qwen3 のような検閲問題もない
どの分野で Gemini がそこまで強いのか知りたい
ベンチマークでは Gemini が最高だが、実際にはChatGPT や Claude より劣るように感じる
でたらめを言うことが多く、Google はベンチマークの点数だけを上げているようだ
Mistral のようなオープンソースがこうした市場を侵食してほしい
エコシステムのバランサーとして機能し、独占防止に意味がある
学習データに十分含まれている分野だからだろう