Mistral Medium 3.5
(mistral.ai)- 128B denseモデルは、instruction-following、reasoning、codingを単一の重みで処理し、public previewとして提供される
- 256k context windowとリクエストごとのreasoning effort設定をサポートし、短いチャット応答と複雑なagentic実行を同じモデルで処理できる
- Vibeコーディングセッションはクラウドで非同期実行され、複数セッションを並列で回せるほか、ローカルCLIセッションはhistory、task state、approvalとともにクラウドへteleportできる
- Le ChatのWork modeはMistral Medium 3.5ベースのagentic modeで、connected toolsやdocuments、mailboxes、calendarsのcontextを活用し、機密性の高い作業には明示的な承認を求める
- モデルはLe Chatのデフォルトモデルとなり、Vibe CLIでDevstral 2を置き換える。API料金はinput 100万tokenあたり$1.5、output 100万tokenあたり$7.5
Mistral Medium 3.5公開
- ビジョンエンコーダは、さまざまな画像サイズとaspect ratioを扱えるよう、scratchから学習された
- SWE-Bench Verifiedで**77.6%**を記録し、Devstral 2やQwen3.5 397B A17Bのようなモデルを上回った
- τ³-Telecomでは91.4を記録し、複数のツール呼び出しと、downstream codeが消費できるstructured outputの生成に重点を置いている
Vibeリモートコーディングエージェント
- コーディングセッションは今やクラウドで非同期実行され、長時間の作業を、ユーザーが席を外している間も処理し続けられる
- 複数のセッションを並列実行できるため、agentが進める各ステップで開発者がボトルネックにならない
- クラウドagentはMistral Vibe CLIまたはLe Chatから開始できる
- 実行中はfile diff、tool call、progress state、agentからの質問を確認できる
- ローカルCLIセッションはクラウドへteleportでき、session history、task state、approvalも一緒に移動する
開発ワークフローと統合される構造
- Vibeは、開発チームがすでに使っているシステム群の間に位置し、必要な地点ごとにhuman-in-the-loopを維持する
- GitHubとはcodeとpull requestで接続し、LinearやJiraとはissueで接続する
- Sentryはincident対応に、SlackやTeamsのようなアプリはreportingに接続される
- 各コーディングセッションはisolated sandboxで実行され、大規模な編集やインストールを含められる
- 作業が終わると、agentはGitHub pull requestを開いて通知を送ることができ、開発者はすべてのkeystrokeではなく結果をレビューすることになる
適したコーディング作業とLe Chatでの実行
- Vibeリモートagentは、開発者の判断は必要だが時間のかかるwell-defined workに向いている
- 対象となる作業には、module refactor、test generation、dependency upgrade、CI investigation、bug fixが含まれる
- WorkflowsをMistral Studioでorchestrateすることで、Le ChatでMistral Vibeを使えるようになった
- この機能はまず社内コーディング環境向けに作られ、その後enterprise customers向けに使われるようになった
- これにより、Webからコーディング作業を開始でき、ローカルターミナルに縛られず複数の作業を並列実行できる
- Le Chatで作成した作業は、CLIとWebが使う同じremote runtimeで実行され、後からfinished branchまたはdraft PRとして戻ってくる
Le ChatのWork mode
- Work modeはLe Chatで複雑な作業を処理するagentic modeで、新しいharnessとMistral Medium 3.5によって駆動される
- agentがassistant自体のexecution backendとなり、Le Chatが読み取りと書き込み、複数ツールの同時利用、multi-step projectの処理を行えるようにする
-
ツール横断ワークフロー
- email、message、calendarを1回の実行でまとめて処理できる
- 参加者のcontext、最新ニュース、sourceから取得したtalking pointを使って会議準備ができる
-
調査と統合
- web、internal docs、connected tools全体にわたってトピックを調査できる
- 編集後にexportまたは送信できるstructured briefやreportを作成できる
-
受信トレイとチーム作業
- inbox triageやreply draftの作成が可能
- チームや顧客との議論からJira issueを作成し、Slackでチームにsummaryを送れる
- セッションは通常のチャット応答より長く維持され、複数のturnとtrial-and-errorを経て完了まで継続できる
- Work modeではconnectorが手動選択ではなくデフォルトで有効になっており、documents、mailboxes、calendars、other systemsのcontextにアクセスできる
- agentのすべての動作は可視化され、各tool callとthinking rationaleを確認できる
- メッセージ送信、文書作成、データ変更のような機密性の高い作業では、権限に応じてLe Chatが明示的な承認を求める
提供状況と価格
- Mistral Medium 3.5はMistral VibeとLe Chatで提供される
- Le Chatのremote coding agentsとWork modeは、Pro、Team、Enterpriseの料金プランでMistral Medium 3.5により提供される
- API料金はinput token 100万個あたり**$1.5**、output token 100万個あたり**$7.5**
- open weightsはHugging Faceでmodified MIT licenseとして提供される
- プロトタイピング向けに、build.nvidia.comのNVIDIA GPU-accelerated endpointでホストされる
- scalable containerized inference microserviceであるNVIDIA NIMでも提供される
1件のコメント
Hacker Newsの反応
コメント欄のみんなが何を見ているのかわからない。このモデルは他のモデルに勝てはしないが、サイズ対比の競争力は間違いなくある。
GLM 5.1は素晴らしいが、Q4でも約400GBが必要で、Kimi K2.5も良いが、Q4量子化基準でほぼ600GBが必要だ。
このモデルはQ4で70GB VRAMで動かせるので、消費者向けの領域に近づいている。128GB RAMのMac Studioが約3500ドルで買えるレベルだ。
Claudeに夢中な人たちはOpusしか使っていないのかもしれないが、ProプランのSonnetもすでにかなり有能だった。このモデルはローカルで動かしつつ最新のSonnetに勝ち、repoにHERMES.mdがあるからといって追加課金したり、アカウントを恣意的に凍結したりもしない。
Mistralがfrontierで競争力を持ったことはなかったが、もしかするとそれは私たちがMistralに期待すべき役割ではないのかもしれない。コスト/サイズの20%でfrontierの80%を出すパレートモデルなら十分に良さそうだ。
128GB Macでこういうモデルを実行することはできるが、まずQ4が品質を十分保てるかを見る必要がある。モデルごとに量子化感度は異なり、実際の速度も重要だ。
非同期作業やバックグラウンド作業では、プロンプト処理やトークン生成速度の重要性は下がるが、多くのMac Studio購入者は、クラウドのまともなハードウェア上でホストされるモデルほどの応答性がないことを痛感してきた。
オンプレミス処理の要求が強くない大半の人にとっては、このモデルをOpenRouterのホスティング提供者の1つとして使い、トークン単位で支払うのが最善の使い方かもしれない。
今年出たほぼすべてのオープンウェイトモデルがSonnetと同等かそれ以上だと言われてきたが、ベンチマークで明確に上回っていても、実際にそう感じたことはまだない。
Claude Pilledという表現は気に入った。
ベンチマークはF8_E4M3基準で、それをどのMacでも動かせるわけではない。
Sonnetには1Mトークンコンテキストがあるが、このモデルは256kで、ローカルではそれすらまともに使えない可能性が高い。
Sonnetはネットワーク越しでも速いが、このモデルははるかに遅いはずだ。
中国以外のオープンソースモデルが最低でも1世代遅れて見えるのは残念だ。
いつでもMistralを応援している。モデルと国家の多様性は重要だ。
今回のモデルはその上に積み上げるのに適した堅実な土台のように見え、3.6/3.7でさらに多くの改善が入ることを期待したい。computer useベンチマークを見ると、vision pipelineには改善の余地がありそうだが、これは推測にすぎない。
いくつかのベンチマーク結果が異なるのを見ると、frontierのログを抜いてきたのではなく、本当に独立して学習したモデルという感じがする。これも非常に重要だ。
特定のモデルの中に別のweight architectureが存在することは、グローバルなシステムアーキテクチャの観点から、それ自体が利点のように見える。
Mistralが引き続き信頼できるモデルを出しているのは市場にとって良いことだ。
買い手が価格や導入に関する交渉力を持つには、2社のうちどちらか1つを選ぶだけの構造を超える必要がある。
テストした他のホスト型LLMと比べると、Mistralだけがかなり厳格なCSPヘッダーを使っているようだ。
JavaScriptライブラリ入りのWebサイトを作ってくれと頼むと、Le Chatにcanvas modeがあってもプレビューできない。
新しいリリースが出たとき、ときどきWeb上で少し試したいだけなのに、課金するかagent harnessを使わないと難しい。
SVG描画は本当に苦手だ https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
VibeでMCPサーバー設定を手伝ってくれと頼んだら、MCPをMineCraft Protocolだと自信満々に説明し、その後コンピュータ上のMinecraftバイナリを探し始めた。
どのモデルもこれには弱く、いくつかのモデルがただより面白く失敗するだけだ。
mistral-medium-2508をテキスト変換作業に使っているが、自分の用途ではmistral-largeより良い結果を出してくれる。
新モデルも試してみたいが、ずっと高価で、coding/agenticモデルとして提示されているので、以前のmediumモデルを置き換えるつもりなのかはよくわからない。
mistral-medium-2508は100万トークンあたり$0.4/$2だったが、mistral-medium-3.5は**$1.5/$7.5**だ。
Sonnetとほぼ同等の結果を出しつつ90%安い。コーディングには絶対使わないが、このテキスト分析作業には非常に良かった。最新の中国モデルよりもずっと良かった。
だから今回のリリースを待っていたのだが、最新のMistral Largeより5倍高い。安価なLargeをこのリリースへの切り替えに合わせて終了させるのではないかと心配している。
このモデルの問題は、DeepSeek v4 Flashが2ビット量子化でもかなりうまく動くことだ https://github.com/antirez/llama.cpp-deepseek-v4-flash
M3 Ultraでは生成30 t/s、prefill 400 t/sが出て、128GB MacBook Pro M3 Maxでもそれほど遅くない。
opencode/piと組み合わせると優れたcoding agentとして機能し、tool callingも非常に安定している。この速度は120B denseモデルでは絶対に達成できない。
つまり、同サイズの4ビット量子化モデルだけでなく、86GBのGGUFファイルであるDeepSeek v4 Flashとも競わなければならず、ローカル推論の実戦的な観点では勝つのが簡単ではない。
まだコミットしていない速度改善もさらにあり、近いうちにpushする予定だ。現在のtreeも少し遅いかもしれないが、それでも十分実用的だ。
ヨーロッパにいるMistralファンとしても理解できない点がある。MistralはMixtralでオープンウェイトMoEの流れを切り開いたのに、なぜ今かなり大きなdenseモデルを出すのかわからない。
このやり方では、ローカル推論でもリモート推論でも安定して競争するのは難しい。モデルはSOTAから距離があり、サービングコストも安くないからだ。
denseモデルにはQwen 3.6 27Bのような数十Bパラメータ帯なら居場所があるが、その5倍に行くなら、同じVRAMを要求する他モデルを能力で圧倒しない限り合わない。
これはagentic workflowでどう動くかとはほとんど関係がない。Q2量子化で品質が大きく低下することが多いのはすでにわかっている。
この量子化されたFlashが、より大きなコンテキスト長でも適切な品質と性能を維持できるなら、V4シリーズの中核機能と思われる部分まで保ちながら、Qwen 3 Coder-Next 80Bのような同じweight classのモデルに対してかなり妥当な競合相手になり得る。
今回のMistralリリースは、frontier labとそれ以外のプレイヤーとの格差をあらためて感じさせる。
agent以前は、モデル間の差は常に明確だったわけではなく、それぞれのモデルにそれなりの魅力があった。
今ではfrontierモデルより劣るものは使いたくない。能力差が大きく、劣るモデルを選ぶと生産性に実際のコストが生じる。
Mistralや、とくにCohereのような小さなlabは好きだったが、両社のリリースで興奮したのはかなり前だ。
それでもmistral voxtral realtimeは毎日使っていて、素晴らしい。
2年前ならなおさらだ。
しかしClaude CodeはCodexよりかなり良く、CodexはGemini-cliより明らかに良い。
この文脈で、Claude Codeがagentic codingにおいてnon-frontierモデルよりはるかに優れているのは驚くことではない。特化したagentic作業では、他のfrontierモデルよりもかなり良い。
複雑なコーディング作業を含むほとんどの作業では、frontierモデルとGPT-4.1のようなモデルの差をほとんど見分けられない。
差を見るには、context window、tool calling、reasoning stepの特定の側面のような領域に本当に集中する必要がある。
しかもfrontierモデルは、結果を出すために brute force 的なアプローチを取り、その分実行コストがずっと高くなる。請求額として見えるコストだけでなく、何らかの出力が出るまで待たされる時間も長くなる。
ローカルモデルの話は持ち出さないでおく。
Mistralはここで長期戦をしているようだ。より小さいモデル、より低いコスト、全体として十分に良い性能だ。
悪くはないが特別でもない。それでも米国でも中国でもないモデルの話は、やはり良いニュースだ。
128Bが今やMediumと見なされるのは笑ってしまう。
昔はGPT-2で355Mパラメータがmediumと見なされていた時代があった。
もしかすると、その判断は正しかったのかもしれない。