Mistral、オープンソースコーディングモデルDevstral 2とVibe CLIを公開

(mistral.ai)

9 ポイント投稿者 GN⁺ 2025-12-10 | 1件のコメント | WhatsAppで共有

Devstral 2は123Bパラメータの次世代オープンソースコーディングモデルで、SWE-bench Verifiedで72.2%の性能を記録し、競合モデルと比較して高い効率を達成
Devstral Small 2は24Bパラメータで、コンシューマ向けハードウェアでも実行可能であり、Apache 2.0ライセンスで配布
Mistral Vibe CLIはDevstralベースのオープンソースのターミナルエージェントで、自然言語を使ってコードの探索・修正・実行を行う
Devstral 2はClaude Sonnetに対して最大7倍のコスト効率を示し、DeepSeek V3.2より5倍小さい一方で高い性能を維持
オープンソースエコシステムにおいて大規模なコード自動化と分散知能の加速を実現する中核ツールとして評価

Devstral 2 概要

Devstral 2は123Bパラメータのデンス・トランスフォーマーモデルで、256Kコンテキストウィンドウをサポート
- SWE-bench Verifiedで72.2%性能を達成し、オープンウェイトモデルの中でもトップクラスの成績を誇る
- 修正版MITライセンスで公開され、オープンソースコードエージェントの新たな基準を提示
Devstral Small 2は68.0%のSWE-bench Verified性能を記録し、最大5倍大きいモデルと同等レベルを維持
- コンシューマ向けハードウェアでローカル実行可能で、低遅延推論と個別化されたフィードバックループを提供
- 画像入力をサポートし、マルチモーダルエージェントの実行が可能
Devstral 2（123B）とSmall 2（24B）はそれぞれDeepSeek V3.2より5倍、28倍小さく、Kimi K2より8倍、41倍小さい
- 小型化されたモデル構造により、リソースの限られたハードウェアでもデプロイしやすい

本番向けワークフローサポート

Devstral 2はコードベース探索と複数ファイルの変更管理をサポートし、アーキテクチャレベルのコンテキストを維持
- フレームワーク依存関係のトラッキング、失敗検知、自動リトライ機能を含む
- バグ修正とレガシーシステムの近代化作業を実行可能
特定言語や大規模エンタープライズコードベース向けのファインチューニングをサポート
DeepSeek V3.2およびClaude Sonnet 4.5との人間評価比較で、DeepSeekに対して優位性（勝率42.8%）を確保
- ただし、Claude Sonnet 4.5には依然として性能差が存在
ClineはDevstral 2を「最高水準のオープンソースコーディングモデル」と評価し、ツール呼び出し成功率がクローズドモデルと同等であると述べた
Kilo Codeはローンチ初日の24時間で17Bトークン使用量を記録したと発表

Mistral Vibe CLI

DevstralベースのオープンソースCLIコーディングアシスタントとして、自然言語のコマンドでコード探索・修正・実行が可能
- Apache 2.0ライセンスで公開
- ターミナルまたはIDE（Agent Communication Protocol連携）で利用可能
主な機能
- プロジェクト認識コンテキスト: ファイル構造とGit状態を自動スキャン
- スマート参照: @ オートコンプリート、! コマンド実行、スラッシュコマンドによる設定変更
- マルチファイルオーケストレーション: コードベース全体の理解にもとづくアーキテクチャレベルの推論
- 継続的な履歴、自動補完、テーマカスタマイズをサポート
スクリプト実行、自動承認トグル、ローカルモデル設定、権限制御など、ワークフローを目的に合わせてカスタマイズ

配布と利用

Devstral 2は現在無料APIとして提供され、今後は入力/出力あたり$0.40/$2.00の料金が予定される
- Devstral Small 2は**$0.10/$0.30**の料金
Kilo Code、Clineなどのオープンエージェントツールと統合して利用可能
Zed IDE拡張機能でVibe CLIを直接利用可能
Devstral 2は**データセンター級GPU（最低4×H100）**が必要で、build.nvidia.comで体験可能
- Devstral Small 2は単一GPUまたはCPU環境でも実行可能
- NVIDIA NIMサポート予定
最適性能のために温度0.2の設定とVibe CLIのベストプラクティスを推奨

コミュニティと採用

MistralはDevstral 2、Small 2、Vibe CLIを活用したプロジェクト共有とフィードバック参加を促進
- X/Twitter、Discord、GitHubチャンネルを通じてコミュニケーション可能
オープンソース研究およびインターフェース開発人材を採用中で、応募はMistralの公式採用ページから可能

1件のコメント

GN⁺ 2025-12-10

Hacker Newsの意見

llm install llm-mistral コマンドで Mistralモデルをインストールし、llm mistral refresh の後に llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle" でSVG画像を生成した。
結果はこのリンクで見られる。123Bモデルにしてはかなり良い出来だ。
モデルIDは正確ではないかもしれないので、Mistralに直接問い合わせた
- いまでは「ペリカンが自転車に乗るSVGを生成せよ」のようなプロンプトが 学習データ に含まれている可能性もある。ベンチマークとしては良いが、benchmaxxing を避けるにはランダムテストも必要だと思う
- ひょっとするとこのモデルは Space Jam 1996のWebサイトを再現できるのだろうか、という疑問が湧いた
- SVGはコードではあるが 実行可能コード ではないので、コーディングモデルの評価としてはやや誤解を招くかもしれない。それでも結果は印象的だ
- llm ツールはどこで手に入れたのか気になる
- 自転車は飛ばして、格好いい オートバイ にアップグレードしたようだ
MistralはSOTAより1年ほど遅れているが、速度と価格競争力 は良くなってきている。まだ自分が使うには不足しているが、急速に追いついてきている。競合モデルとしてはHaiku 4.5、Gemini 3 Pro Fast、それにOpenAIの新しい軽量モデル（GPT 5.1 Codex Max Extra High Fast?）あたりを見ている
- OpenAIの新モデル名が Garlic らしいが、さすがに本当にその名前では出さないだろう？
- Deepseek-v3.2と比べると 一般能力 はかなり劣り、価格は5倍高い
Devstral 2をCLIで動かして、500KBの個人プロジェクトをレビューさせた。
プログラムの機能を正確に理解し、バグを2つ修正 し、コード改善と小規模な機能2つを追加した。
新しいバグを1つ作ったが、指摘したらすぐ直した。
コード変更は最小限で、不要な書き直しもなかった。
まだ結論を出すには早いが、かなり 有能なモデル に見える
- どのハードウェアで動かしたのか気になる
Devstralを自分でも試してみるつもりだ。以前のモデルも ローカルでのエージェント型コーディング には悪くなかった。
ただ、「Vibe CLI」という名前はあまりにも 軽い印象 を与える。
「vibe-coding」はモデルの限界を試すには面白いが、品質管理が必要なプロ向けの仕事 には向いていない。
最近はみんなvibe-codingに熱中しているが、人間の知性を補助する 専門向けLLMツール はどこにあるのかと思う
- 新しいCLIエージェント mistral-vibe はPythonで書かれており、ZedのACPプロトコルをサポートしている
- 多くのアプリは短期的なビジネス目的の その場しのぎのサービス として作られるので、agentic codingはそうした「段ボール製サービス」には十分役立つ。だが産業向けデータインフラには不向きだ
- 我々が作っている Brokk がまさにそうした 専門向けツール だ。紹介はこのブログ記事を参照
- 「じゃあ Claude Code では不十分ということか？」という反応もある
- いまやコード品質より 仕様とテストの品質 のほうが重要だという意見もある
Devstral Small 2を動かすための 5,000ドルのハードウェア構成 を考えている。
Mac 32GB、RTX 4090、DGX Spark、RTX 5090、外付けGPU（Oculink）などでの トークン処理速度 が気になる
- 5,000ドルは中途半端な予算なので、クラウドGPUのレンタルを勧める。
  高性能が欲しければRTX 5090、CUDA互換性ならDGX Spark、大規模モデルなら Strix Halo 128GB や M3 Ultra が向いている。
  実際のベンチマークは r/LocalLLaMA で探すのがよい
- デュアル3090（24GB×2） 構成が現時点ではコスパ最高だ。
  さらに上を目指すなら8×V100サーバー（32GB×8、512GB RAM、NVLink）もある。ただし240V電源が必要だ
- 自分は 7900XTX + 128GB DDR4 の組み合わせを使っている。そして NVIDIAは嫌いだ
「Vibe CLI」という名前はあまりにも 軽く見えるツール っぽい。
自分はClaude Codeをよく使うが、それをvibe-codingとは呼ばない
- こういう名前は 宣伝用ミーム である可能性が高い。「フランス企業が『vibeでコーディングする』ツールを出した！」みたいな記事で注目を集めたいのだろう
- LLMでコードを書くのは本質的に 軽い作業 に向いていると思う
- Claudeにコードを書かせるなら、それはもうvibe-codingだ
- たぶん単に ユーモラスなネーミング なのだろう
Reactを使っていないCLIなのがうれしい。
Vibe-cli は Textualフレームワークで作られている
- ただしPythonベースなので 出力速度 が遅くないか心配だ。以前Aiderでも似た問題を経験した
MistralがClaudeより トークン単価で10倍安い ならかなり魅力的だ。
性能が10倍悪いのでなければ、良いポイントだと思う
- GPT 5-miniもHaikuよりずっと安いが、実際に使うと 時間の無駄レベル だった。
  会社ではHaiku、Sonnet、Opusを使っているが、個人予算ではminimax m2を使っている
- 10倍安くて2倍遅いなら、結局 トークンの無駄 でより高くつく可能性もある
- 現在のSOTAモデルもコーディング性能は完璧ではないので、あえて 価格最適化 に集中する理由はないと思う
Mistral-vibe向けの AURパッケージ を作った
パッケージリンク
Nixユーザーなら以下のコマンドですぐ実行できる
```
nix run github:numtide/llm-agents.nix#mistral-vibe
```
リポジトリは毎日更新されている
- 本当に素晴らしいプロジェクトだと思う。共有してくれてありがとう

Mistral、オープンソースコーディングモデルDevstral 2とVibe CLIを公開

Devstral 2 概要

本番向けワークフローサポート

Mistral Vibe CLI

配布と利用

コミュニティと採用

関連記事

1件のコメント

Hacker Newsの意見