4 ポイント 投稿者 GN⁺ 2025-12-03 | 1件のコメント | WhatsAppで共有
  • Mistral 3 シリーズは、3B、8B、14Bの小型モデルと、41Bアクティブ・675B総パラメータを持つMistral Large 3で構成される次世代オープンソースAIモデル群
  • すべてのモデルがApache 2.0 ライセンスで公開され、開発者と企業が自由に活用・カスタマイズ可能
  • Mistral Large 3はNVIDIA H200 GPU 3000台で学習されたMixture-of-Experts構造を採用し、多言語対話と画像理解で最高水準の性能を達成
  • Ministral 3はエッジ環境向けに設計され、コスト対効果が高く、推論(reasoning)派生モデルはAIME '25で85%精度を記録
  • Mistral 3はMistral AI Studio、Hugging Face、AWS、Azureなど主要プラットフォームで即時利用可能で、オープンAIエコシステムの拡大を目指す

Mistral 3 の概要

  • Mistral 3はMistral AIの次世代モデル群で、軽量密集モデル(3B、8B、14B)と大規模スパースモデルMistral Large 3で構成
    • Mistral Large 3は41Bアクティブパラメータ、675B総パラメータを持つMixture-of-Experts(MoE)構造
    • すべてのモデルはApache 2.0 ライセンスで公開され、オープンソースコミュニティで活用可能
  • モデルはさまざまな圧縮フォーマットで提供され、分散インテリジェンスを通じてアクセシビリティを向上
  • Ministralモデル群はコスト対効果が最も高いOSSモデルとして評価

Mistral Large 3: オープンウェイトベースの最上位モデル

  • Mistral Large 3はNVIDIA H200 GPU 3000台でゼロから学習されたオープンウェイトモデル
    • Mixtralシリーズ以降の初のMixture-of-Expertsモデルで、Mistralの事前学習技術の進化を反映
  • 学習後、一般プロンプト性能において最高水準のオープンウェイトモデルと同等の性能を示し、
    画像理解英語以外の多言語対話でも優れた結果を達成
  • LMArenaリーダーボードでOSS非推論(non-reasoning)モデル2位、全OSSモデル6位を記録
  • ベース(base)およびインストラクション(instruct)チューニング版が公開され、推論(reasoning)版は近日公開予定

NVIDIA・vLLM・Red Hatとの協力

  • Mistral Large 3はvLLMおよびRed Hatと協力し、オープンソースコミュニティから簡単にアクセス可能に
    • llm-compressorで作成されたNVFP4フォーマットチェックポイントを提供
    • vLLMを通じてBlackwell NVL72、8×A100、8×H100システムで効率的な実行が可能
  • NVIDIAとの協力でTensorRT-LLMSGLangなどで低精度推論をサポート
    • BlackwellアテンションおよびMoEカーネルprefill/decode分離サービング推測デコード(speculative decoding) 機能を統合
  • DGX Spark、RTX PC、Jetsonデバイスなどエッジ環境でも最適化されたデプロイをサポート

Ministral 3: エッジ向け知能モデル

  • エッジおよびローカル環境向けのMinistral 3シリーズは3B、8B、14Bの3種類のサイズで提供
    • 各モデルはbase、instruct、reasoningの3種類の変形で公開
    • すべての変形に画像理解多言語処理機能を搭載
  • コスト対効果が最も高いOSSモデルで、
    instructモデルは競合モデルと同等またはそれ以上の性能を示し、トークン数を10分の1レベルで削減
  • reasoning派生モデルは精度重視の環境で強みを発揮し、
    14BモデルがAIME '25で85%精度を達成

配信とアクセシビリティ

  • Mistral 3は以下のプラットフォームで即時利用可能
    • Mistral AI StudioAmazon BedrockAzure FoundryHugging FaceModalIBM WatsonXOpenRouterFireworksUnsloth AITogether AI
    • 近日中にNVIDIA NIMおよびAWS SageMakerでも提供予定
  • 企業向けカスタムモデル学習サービスを提供
    • ドメイン特化タスク、独自データセットの性能向上、特殊環境デプロイなどをサポート

Mistral 3のコアバリュー

  • フロンティア性能とオープンアクセス: クローズドモデル級の性能をオープンソースで提供
  • マルチモーダル・多言語サポート: 40以上の言語でテキスト、画像、論理理解が可能
  • 拡張可能な効率性: 3B〜675Bパラメータ範囲で、エッジからエンタープライズまで対応
  • 適応的活用性: コーディング、文書分析、ツール活用などさまざまなワークフローに適用可能

今後のステップ

  • モデルドキュメントと技術資料はMistral DocsAI Governance Hubで提供
  • Hugging FaceおよびMistral AIプラットフォームを通じて即時API利用可能
  • 企業向けのカスタム学習とファインチューニングの問い合わせ窓口を運用
  • コミュニティ参加はTwitter/X、Discord、GitHubで可能

結論

  • Mistral 3は透明性、アクセシビリティ、共同発展を基盤に、オープンAIエコシステムの拡大を目指す
  • 推論、効率性、実用アプリケーションで新たな可能性を開き、
    「理解を行動へと転換する」次世代のオープンモデルとして位置づけ

1件のコメント

 
GN⁺ 2025-12-03
Hacker Newsのコメント
  • 私は phrasing.app で**大規模言語モデル(LLM)**を使ってデータを一貫した形式に整理している
    数か月前に mistral-3-medium-0525 に切り替えたが、gpt-5 が妙な出力を頻繁に出すので苦労していた
    Mistral は速くて安く、フォーマット指示にも正確に従う。ベンチマークより実運用でずっと優れている
    ごくたまに(0.1%)おかしな結果を出すが、gpt-5 の 15% の失敗率と比べればはるかに安定している
    新モデルも近いうちに試して、結果を共有する予定だ

    • 以前はいくつものチャットボットを購読していたが、今は Grok, ChatGPT, Gemini, Deepseek, Mistral を使い分けている
      API では、モデルが期待どおりに動作することが最大の利点だと感じる
      今は Openrouter 経由で必要なモデルを選んで使っている
      最近広告ベースのチャットボットが増えているのは、ベンチマークと違って実際の利用者は差を感じられず、有料サブスクリプションを解約しているからだと思う
      今日も OpenAI が 1 か月の無料体験を提案してきたが、2 か月前にも使ったことを忘れているようだ
    • 私も似たような経験がある。Mistral のモデルはベンチマーク上では最高ではないが、分類や要約のような単純な作業では最も効率的だ
      とくに mistral-small を batch API で使うと、コストパフォーマンスが非常に高い
    • LLM をベンチマークで評価するやり方には限界があると感じる
      過学習が実用性を損なうこともありうるし、Chatbot Arena が生まれたのもこうした実使用ベースの評価のためだった
      しかしそれですら、フォーマット合わせやおべっかのような要素に偏るという指摘がある
      結局のところ、タスク別に特化したモデルがもっと必要だと思う
    • Mistral モデルの利用事例を共有してくれてありがとう
      ただ、phrasing.app の「Hand-crafted by humans」という文言は、実際には高度な LLM を使っている点で少し皮肉に感じられた
    • gpt-5 が 15% の確率で妙な出力をするという意味なのか気になる
      もしかして Mistral のエラー率を gpt-5.1 の複雑なタスクでの失敗率と比較したのだろうか?
      それと、Mistral にTool Use モデルがあるのかも気になる。新しいコーディング向けモデルが出たらうれしい
  • 新しい大規模モデルが DeepseekV2 アーキテクチャを使っている点が興味深い
    公式ページでは触れられていないが、オープンソースモデルが最新の構造を採用するのは良いことだと思う
    K2 も似たようなアプローチを取っていて、実際のコード(mistral_large_3.py)を見ると DeepseekV3 ベースだ
    「科学は常に開放と共有の上で発展する」という言葉のように、こうした透明性は歓迎したい
    これから自宅で 14B モデルを試す予定で、Vision 機能が追加された点にも期待している

    • 結局のところ、R&D を Deepseek のコピーに注ぎ込み、唯一の追加機能である Vision にはあまり力を入れなかったように見える
      Hugging Face のページでも、Mistral Large 3 はマルチモーダル作業では Vision 特化モデルに劣ると明記されている
    • 正直、最近はアーキテクチャの違いよりもデータ、チューニング、パイプラインがモデル性能を左右していると思う
    • 何でも公開しろと要求しておきながら、いざ公開されたものを使うと非難するのはダブルスタンダードだと感じる
  • 3B Vision モデルがブラウザ上で直接動くのは驚きだ
    3GB のモデルをダウンロードすればすぐ実行でき、Hugging Face デモ もある
    Simon Willison の記事 も参考になる

    • こうした技術で、視覚障害者向けのリアルタイム映像描写ツールのようなアクセシビリティツールを作れそうだ
      単なる音声だけでなく、映像内の動作まで説明してくれる機能を想像している
  • ヨーロッパの Mistral が久しぶりに戻ってきてうれしい
    Apache 2.0 ライセンスでオープンソースに復帰したのも前向きだ
    しばらくの間、コンシューマー GPU 向け小型モデルでは最高だったし、今回の Ministral 14B もベンチマークどおりの性能が出ることを期待している

    • 実際のところ、こうした成果は米国の VC 資金のおかげだと思う
      ヨーロッパ内部だけでは、この規模の AI 学習資金を得るのは難しかったはずだ
  • 新モデルは魅力的だが、OpenAI・Google・Anthropic のような SOTA モデルとの比較がないのは残念だ
    全体の位置づけを把握しにくいからだ

    • LMArena の結果を見ると、Mistral Large 3 は 28 位で、上位モデルとの点差はそれほど大きくない
      最高モデルが 1491 点、Mistral が 1418 点なので、性能差は小さい
    • ただ、こうした比較は広告規制に触れる可能性があるので、企業は避けているようだ
    • どうせ Mistral もクローズドモデルとの競争が難しいことは分かっているのだろう
      GPT-OSS とも比較しないのは、やや保守的な動きに見える
    • 比較結果を公開しなかったという事実自体が、すでに多くを物語っていると思う
  • ヨーロッパの取り組みを応援している

    • ただし、ヨーロッパ内でも ロンドンの DeepMind のように活発な AI 研究が多いことは忘れるべきではない
    • 「Windows 11 はアメリカ最高の傑作」という冗談でバランスを取りたい
  • 正直、Deepseek 3.2 が昨日すべての注目をさらっていった感じだ
    今回の比較が Deepseek 3.1 基準なのは少し残念だ
    公式ニュース によれば、3.2 では大幅な改善があった

  • 良いモデル重みを公開するインセンティブがいまだによく分からない
    OpenAI が gpt-oss のようなベンチマーク向けモデルを出すのは PR 目的かもしれないし、
    中国企業も米国ビッグテックの立場を揺るがすために似た戦略を取っているように見える
    今後もそれなりに良いオープンウェイトモデルが出続けるのか疑問だ

    • クローズドモデルではお金を稼ぎにくいからだ
      オープンウェイトは、企業向けファインチューニングサービスのような二次的な収益チャネルを開いてくれる
      透明性、制御、プライバシー、コスト削減は企業にとって重要なので、
      こうしたオープンなエコシステムが長期的にクローズドモデルを侵食する可能性はある
      関連サービスは Mistral Custom Model Training を参照
    • gpt-oss はベンチマーク用ではなく、実際に数学問題の解決能力が非常に高い
      Kaggle の AIME3 大会でも上位を維持している
    • 今は収益モデルが不透明なので、AI 企業は最高のモデルを作ることよりVC 資金の確保に集中している
      オープンモデルを公開すると企業価値が急騰し、GPU の確保に有利になる
      ただし、持続可能なビジネスモデルが結局出てこないなら大きな問題だ
    • gpt-oss はツール呼び出し性能が卓越しており、全体的に安定している
    • Google はベンチマークを操作しているような印象が強い
      Gemini はベンチマークでは先行していても、実際の使い勝手は落ちる
  • 複数モデルの総合ベンチマークスコアを比べてみた
    Gemini 3.0 Pro が 84.8 で 1 位、DeepSeek 3.2 が 83.6、GPT-5.1 は 69.2 だ
    Mistral Large 3 は 41.9 と低いが、14B・8B・3B モデルは SOTA 水準で、
    Qwen3 のような検閲問題もない

    • Gemini 3 と GPT-5.1/Opus 4.5 の大きな差が気になる
      どの分野で Gemini がそこまで強いのか知りたい
  • ベンチマークでは Gemini が最高だが、実際にはChatGPT や Claude より劣るように感じる
    でたらめを言うことが多く、Google はベンチマークの点数だけを上げているようだ
    Mistral のようなオープンソースがこうした市場を侵食してほしい

    • オープンウェイト LLM はクローズドモデルに勝つことが目的ではない
      エコシステムのバランサーとして機能し、独占防止に意味がある
    • 私は オンプレミスの k8s クラスター構築を学ぶ中で Gemini を使ってみたが、その話題では非常に正確だった
      学習データに十分含まれている分野だからだろう
    • 私の質問ベースでは、Gemini 3 は GPT-5.1 よりハルシネーションが少なかった
    • 個人的には Gemini が最も期待外れで、過剰な宣伝も不自然に感じた
    • コーディング以外の作業では、Gemini はGoogle Search 連携により、より簡単に根拠を示せることがある