9 ポイント 投稿者 GN⁺ 2025-12-10 | 1件のコメント | WhatsAppで共有
  • Devstral 2は123Bパラメータの次世代オープンソースコーディングモデルで、SWE-bench Verifiedで72.2%の性能を記録し、競合モデルと比較して高い効率を達成
  • Devstral Small 2は24Bパラメータで、コンシューマ向けハードウェアでも実行可能であり、Apache 2.0ライセンスで配布
  • Mistral Vibe CLIはDevstralベースのオープンソースのターミナルエージェントで、自然言語を使ってコードの探索・修正・実行を行う
  • Devstral 2はClaude Sonnetに対して最大7倍のコスト効率を示し、DeepSeek V3.2より5倍小さい一方で高い性能を維持
  • オープンソースエコシステムにおいて大規模なコード自動化と分散知能の加速を実現する中核ツールとして評価

Devstral 2 概要

  • Devstral 2は123Bパラメータのデンス・トランスフォーマーモデルで、256Kコンテキストウィンドウをサポート
    • SWE-bench Verifiedで72.2%性能を達成し、オープンウェイトモデルの中でもトップクラスの成績を誇る
    • 修正版MITライセンスで公開され、オープンソースコードエージェントの新たな基準を提示
  • Devstral Small 2は68.0%のSWE-bench Verified性能を記録し、最大5倍大きいモデルと同等レベルを維持
    • コンシューマ向けハードウェアでローカル実行可能で、低遅延推論と個別化されたフィードバックループを提供
    • 画像入力をサポートし、マルチモーダルエージェントの実行が可能
  • Devstral 2(123B)とSmall 2(24B)はそれぞれDeepSeek V3.2より5倍、28倍小さく、Kimi K2より8倍、41倍小さい
    • 小型化されたモデル構造により、リソースの限られたハードウェアでもデプロイしやすい

本番向けワークフローサポート

  • Devstral 2はコードベース探索と複数ファイルの変更管理をサポートし、アーキテクチャレベルのコンテキストを維持
    • フレームワーク依存関係のトラッキング、失敗検知、自動リトライ機能を含む
    • バグ修正とレガシーシステムの近代化作業を実行可能
  • 特定言語や大規模エンタープライズコードベース向けのファインチューニングをサポート
  • DeepSeek V3.2およびClaude Sonnet 4.5との人間評価比較で、DeepSeekに対して優位性(勝率42.8%)を確保
    • ただし、Claude Sonnet 4.5には依然として性能差が存在
  • ClineはDevstral 2を「最高水準のオープンソースコーディングモデル」と評価し、ツール呼び出し成功率がクローズドモデルと同等であると述べた
  • Kilo Codeはローンチ初日の24時間で17Bトークン使用量を記録したと発表

Mistral Vibe CLI

  • DevstralベースのオープンソースCLIコーディングアシスタントとして、自然言語のコマンドでコード探索・修正・実行が可能
    • Apache 2.0ライセンスで公開
    • ターミナルまたはIDE(Agent Communication Protocol連携)で利用可能
  • 主な機能
    • プロジェクト認識コンテキスト: ファイル構造とGit状態を自動スキャン
    • スマート参照: @ オートコンプリート、! コマンド実行、スラッシュコマンドによる設定変更
    • マルチファイルオーケストレーション: コードベース全体の理解にもとづくアーキテクチャレベルの推論
    • 継続的な履歴、自動補完、テーマカスタマイズをサポート
  • スクリプト実行、自動承認トグル、ローカルモデル設定、権限制御など、ワークフローを目的に合わせてカスタマイズ

配布と利用

  • Devstral 2は現在無料APIとして提供され、今後は入力/出力あたり$0.40/$2.00の料金が予定される
    • Devstral Small 2は**$0.10/$0.30**の料金
  • Kilo CodeClineなどのオープンエージェントツールと統合して利用可能
  • Zed IDE拡張機能でVibe CLIを直接利用可能
  • Devstral 2は**データセンター級GPU(最低4×H100)**が必要で、build.nvidia.comで体験可能
    • Devstral Small 2は単一GPUまたはCPU環境でも実行可能
    • NVIDIA NIMサポート予定
  • 最適性能のために温度0.2の設定とVibe CLIのベストプラクティスを推奨

コミュニティと採用

  • MistralはDevstral 2、Small 2、Vibe CLIを活用したプロジェクト共有とフィードバック参加を促進
    • X/Twitter、Discord、GitHubチャンネルを通じてコミュニケーション可能
  • オープンソース研究およびインターフェース開発人材を採用中で、応募はMistralの公式採用ページから可能

1件のコメント

 
GN⁺ 2025-12-10
Hacker Newsの意見
  • llm install llm-mistral コマンドで Mistralモデルをインストールし、llm mistral refresh の後に llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle" でSVG画像を生成した。
    結果はこのリンクで見られる。123Bモデルにしてはかなり良い出来だ。
    モデルIDは正確ではないかもしれないので、Mistralに直接問い合わせた

    • いまでは「ペリカンが自転車に乗るSVGを生成せよ」のようなプロンプトが 学習データ に含まれている可能性もある。ベンチマークとしては良いが、benchmaxxing を避けるにはランダムテストも必要だと思う
    • ひょっとするとこのモデルは Space Jam 1996のWebサイト を再現できるのだろうか、という疑問が湧いた
    • SVGはコードではあるが 実行可能コード ではないので、コーディングモデルの評価としてはやや誤解を招くかもしれない。それでも結果は印象的だ
    • llm ツールはどこで手に入れたのか気になる
    • 自転車は飛ばして、格好いい オートバイ にアップグレードしたようだ
  • MistralはSOTAより1年ほど遅れているが、速度と価格競争力 は良くなってきている。まだ自分が使うには不足しているが、急速に追いついてきている。競合モデルとしてはHaiku 4.5、Gemini 3 Pro Fast、それにOpenAIの新しい軽量モデル(GPT 5.1 Codex Max Extra High Fast?)あたりを見ている

    • OpenAIの新モデル名が Garlic らしいが、さすがに本当にその名前では出さないだろう?
    • Deepseek-v3.2と比べると 一般能力 はかなり劣り、価格は5倍高い
  • Devstral 2をCLIで動かして、500KBの個人プロジェクトをレビューさせた。
    プログラムの機能を正確に理解し、バグを2つ修正 し、コード改善と小規模な機能2つを追加した。
    新しいバグを1つ作ったが、指摘したらすぐ直した。
    コード変更は最小限で、不要な書き直しもなかった。
    まだ結論を出すには早いが、かなり 有能なモデル に見える

    • どのハードウェアで動かしたのか気になる
  • Devstralを自分でも試してみるつもりだ。以前のモデルも ローカルでのエージェント型コーディング には悪くなかった。
    ただ、「Vibe CLI」という名前はあまりにも 軽い印象 を与える。
    「vibe-coding」はモデルの限界を試すには面白いが、品質管理が必要なプロ向けの仕事 には向いていない。
    最近はみんなvibe-codingに熱中しているが、人間の知性を補助する 専門向けLLMツール はどこにあるのかと思う

    • 新しいCLIエージェント mistral-vibe はPythonで書かれており、ZedのACPプロトコル をサポートしている
    • 多くのアプリは短期的なビジネス目的の その場しのぎのサービス として作られるので、agentic codingはそうした「段ボール製サービス」には十分役立つ。だが産業向けデータインフラには不向きだ
    • 我々が作っている Brokk がまさにそうした 専門向けツール だ。紹介はこのブログ記事を参照
    • 「じゃあ Claude Code では不十分ということか?」という反応もある
    • いまやコード品質より 仕様とテストの品質 のほうが重要だという意見もある
  • Devstral Small 2を動かすための 5,000ドルのハードウェア構成 を考えている。
    Mac 32GB、RTX 4090、DGX Spark、RTX 5090、外付けGPU(Oculink)などでの トークン処理速度 が気になる

    • 5,000ドルは中途半端な予算なので、クラウドGPUのレンタルを勧める。
      高性能が欲しければRTX 5090、CUDA互換性ならDGX Spark、大規模モデルなら Strix Halo 128GBM3 Ultra が向いている。
      実際のベンチマークは r/LocalLLaMA で探すのがよい
    • デュアル3090(24GB×2) 構成が現時点ではコスパ最高だ。
      さらに上を目指すなら8×V100サーバー(32GB×8、512GB RAM、NVLink)もある。ただし240V電源が必要だ
    • 自分は 7900XTX + 128GB DDR4 の組み合わせを使っている。そして NVIDIAは嫌いだ
  • 「Vibe CLI」という名前はあまりにも 軽く見えるツール っぽい。
    自分はClaude Codeをよく使うが、それをvibe-codingとは呼ばない

    • こういう名前は 宣伝用ミーム である可能性が高い。「フランス企業が『vibeでコーディングする』ツールを出した!」みたいな記事で注目を集めたいのだろう
    • LLMでコードを書くのは本質的に 軽い作業 に向いていると思う
    • Claudeにコードを書かせるなら、それはもうvibe-codingだ
    • たぶん単に ユーモラスなネーミング なのだろう
  • Reactを使っていないCLIなのがうれしい。
    Vibe-cliTextualフレームワーク で作られている

    • ただしPythonベースなので 出力速度 が遅くないか心配だ。以前Aiderでも似た問題を経験した
  • MistralがClaudeより トークン単価で10倍安い ならかなり魅力的だ。
    性能が10倍悪いのでなければ、良いポイントだと思う

    • GPT 5-miniもHaikuよりずっと安いが、実際に使うと 時間の無駄レベル だった。
      会社ではHaiku、Sonnet、Opusを使っているが、個人予算ではminimax m2を使っている
    • 10倍安くて2倍遅いなら、結局 トークンの無駄 でより高くつく可能性もある
    • 現在のSOTAモデルもコーディング性能は完璧ではないので、あえて 価格最適化 に集中する理由はないと思う
  • Mistral-vibe向けの AURパッケージ を作った
    パッケージリンク

  • Nixユーザーなら以下のコマンドですぐ実行できる

    nix run github:numtide/llm-agents.nix#mistral-vibe
    

    リポジトリは毎日更新されている

    • 本当に素晴らしいプロジェクトだと思う。共有してくれてありがとう