- Devstral 2は123Bパラメータの次世代オープンソースコーディングモデルで、SWE-bench Verifiedで72.2%の性能を記録し、競合モデルと比較して高い効率を達成
- Devstral Small 2は24Bパラメータで、コンシューマ向けハードウェアでも実行可能であり、Apache 2.0ライセンスで配布
- Mistral Vibe CLIはDevstralベースのオープンソースのターミナルエージェントで、自然言語を使ってコードの探索・修正・実行を行う
- Devstral 2はClaude Sonnetに対して最大7倍のコスト効率を示し、DeepSeek V3.2より5倍小さい一方で高い性能を維持
- オープンソースエコシステムにおいて大規模なコード自動化と分散知能の加速を実現する中核ツールとして評価
Devstral 2 概要
- Devstral 2は123Bパラメータのデンス・トランスフォーマーモデルで、256Kコンテキストウィンドウをサポート
- SWE-bench Verifiedで72.2%性能を達成し、オープンウェイトモデルの中でもトップクラスの成績を誇る
- 修正版MITライセンスで公開され、オープンソースコードエージェントの新たな基準を提示
- Devstral Small 2は68.0%のSWE-bench Verified性能を記録し、最大5倍大きいモデルと同等レベルを維持
- コンシューマ向けハードウェアでローカル実行可能で、低遅延推論と個別化されたフィードバックループを提供
- 画像入力をサポートし、マルチモーダルエージェントの実行が可能
- Devstral 2(123B)とSmall 2(24B)はそれぞれDeepSeek V3.2より5倍、28倍小さく、Kimi K2より8倍、41倍小さい
- 小型化されたモデル構造により、リソースの限られたハードウェアでもデプロイしやすい
本番向けワークフローサポート
- Devstral 2はコードベース探索と複数ファイルの変更管理をサポートし、アーキテクチャレベルのコンテキストを維持
- フレームワーク依存関係のトラッキング、失敗検知、自動リトライ機能を含む
- バグ修正とレガシーシステムの近代化作業を実行可能
- 特定言語や大規模エンタープライズコードベース向けのファインチューニングをサポート
- DeepSeek V3.2およびClaude Sonnet 4.5との人間評価比較で、DeepSeekに対して優位性(勝率42.8%)を確保
- ただし、Claude Sonnet 4.5には依然として性能差が存在
- ClineはDevstral 2を「最高水準のオープンソースコーディングモデル」と評価し、ツール呼び出し成功率がクローズドモデルと同等であると述べた
- Kilo Codeはローンチ初日の24時間で17Bトークン使用量を記録したと発表
Mistral Vibe CLI
- DevstralベースのオープンソースCLIコーディングアシスタントとして、自然言語のコマンドでコード探索・修正・実行が可能
- Apache 2.0ライセンスで公開
- ターミナルまたはIDE(Agent Communication Protocol連携)で利用可能
- 主な機能
- プロジェクト認識コンテキスト: ファイル構造とGit状態を自動スキャン
- スマート参照:
@ オートコンプリート、! コマンド実行、スラッシュコマンドによる設定変更
- マルチファイルオーケストレーション: コードベース全体の理解にもとづくアーキテクチャレベルの推論
- 継続的な履歴、自動補完、テーマカスタマイズをサポート
- スクリプト実行、自動承認トグル、ローカルモデル設定、権限制御など、ワークフローを目的に合わせてカスタマイズ
配布と利用
- Devstral 2は現在無料APIとして提供され、今後は入力/出力あたり$0.40/$2.00の料金が予定される
- Devstral Small 2は**$0.10/$0.30**の料金
- Kilo Code、Clineなどのオープンエージェントツールと統合して利用可能
- Zed IDE拡張機能でVibe CLIを直接利用可能
- Devstral 2は**データセンター級GPU(最低4×H100)**が必要で、build.nvidia.comで体験可能
- Devstral Small 2は単一GPUまたはCPU環境でも実行可能
- NVIDIA NIMサポート予定
- 最適性能のために温度0.2の設定とVibe CLIのベストプラクティスを推奨
コミュニティと採用
- MistralはDevstral 2、Small 2、Vibe CLIを活用したプロジェクト共有とフィードバック参加を促進
- X/Twitter、Discord、GitHubチャンネルを通じてコミュニケーション可能
- オープンソース研究およびインターフェース開発人材を採用中で、応募はMistralの公式採用ページから可能
1件のコメント
Hacker Newsの意見
llm install llm-mistralコマンドで Mistralモデルをインストールし、llm mistral refreshの後にllm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"でSVG画像を生成した。結果はこのリンクで見られる。123Bモデルにしてはかなり良い出来だ。
モデルIDは正確ではないかもしれないので、Mistralに直接問い合わせた
llmツールはどこで手に入れたのか気になるMistralはSOTAより1年ほど遅れているが、速度と価格競争力 は良くなってきている。まだ自分が使うには不足しているが、急速に追いついてきている。競合モデルとしてはHaiku 4.5、Gemini 3 Pro Fast、それにOpenAIの新しい軽量モデル(GPT 5.1 Codex Max Extra High Fast?)あたりを見ている
Devstral 2をCLIで動かして、500KBの個人プロジェクトをレビューさせた。
プログラムの機能を正確に理解し、バグを2つ修正 し、コード改善と小規模な機能2つを追加した。
新しいバグを1つ作ったが、指摘したらすぐ直した。
コード変更は最小限で、不要な書き直しもなかった。
まだ結論を出すには早いが、かなり 有能なモデル に見える
Devstralを自分でも試してみるつもりだ。以前のモデルも ローカルでのエージェント型コーディング には悪くなかった。
ただ、「Vibe CLI」という名前はあまりにも 軽い印象 を与える。
「vibe-coding」はモデルの限界を試すには面白いが、品質管理が必要なプロ向けの仕事 には向いていない。
最近はみんなvibe-codingに熱中しているが、人間の知性を補助する 専門向けLLMツール はどこにあるのかと思う
Devstral Small 2を動かすための 5,000ドルのハードウェア構成 を考えている。
Mac 32GB、RTX 4090、DGX Spark、RTX 5090、外付けGPU(Oculink)などでの トークン処理速度 が気になる
高性能が欲しければRTX 5090、CUDA互換性ならDGX Spark、大規模モデルなら Strix Halo 128GB や M3 Ultra が向いている。
実際のベンチマークは r/LocalLLaMA で探すのがよい
さらに上を目指すなら8×V100サーバー(32GB×8、512GB RAM、NVLink)もある。ただし240V電源が必要だ
「Vibe CLI」という名前はあまりにも 軽く見えるツール っぽい。
自分はClaude Codeをよく使うが、それをvibe-codingとは呼ばない
Reactを使っていないCLIなのがうれしい。
Vibe-cli は Textualフレームワーク で作られている
MistralがClaudeより トークン単価で10倍安い ならかなり魅力的だ。
性能が10倍悪いのでなければ、良いポイントだと思う
会社ではHaiku、Sonnet、Opusを使っているが、個人予算ではminimax m2を使っている
Mistral-vibe向けの AURパッケージ を作った
パッケージリンク
Nixユーザーなら以下のコマンドですぐ実行できる
リポジトリは毎日更新されている