4 ポイント 投稿者 GN⁺ 2025-05-22 | 1件のコメント | WhatsAppで共有
  • Devstralはソフトウェアエンジニアリング作業向けのエージェント型LLMで、Mistral AIとAll Hands AIの協業により開発された
  • SWE-Bench Verifiedベンチマークで、既存のオープンソースモデルを6%以上上回る46.8%の性能を達成した
  • 競合モデル(Deepseek-V3、Qwen3など)および一部のクローズドソースモデル(GPT-4.1-miniなど)を上回る性能を示した
  • RTX 4090または32GB RAMのMacでもローカル利用が可能で、エンタープライズ環境やコパイロットにも適している
  • Apache 2.0ライセンスの下で無料配布され、さまざまなプラットフォームですぐに利用・カスタマイズできる

Devstralの紹介

  • Devstralは、コード作成、修正、イシュー解決などのソフトウェアエンジニアリング作業のための**エージェント型LLM(Agentic Large Language Model)**である
  • Mistral AIとAll Hands AIのパートナーシップによって開発された
  • Devstralは現実世界のGitHubイシューを実際に解決する形で訓練されており、OpenHandsやSWE-Agentのようなコードエージェントのスキャフォールドを基盤として動作する

SWE-Bench VerifiedベンチマークにおけるDevstralの性能

  • DevstralはSWE-Bench Verifiedで46.8%のスコアを記録し、オープンソースの最高性能モデルを6ポイント以上上回った
  • 同じテストスキャフォールド(OpenHands)基準では、Deepseek-V3-0324(671B)やQwen3 232B-A22Bのようなより大規模なモデルも上回る結果を示した
  • カスタムテスト環境でも、Devstralは複数のクローズドソース代替モデルより優れた性能を記録した
    • 例えば、最新のGPT-4.1-miniより20%以上高い正確性を示した

多様性と適用性

  • DevstralはRTX 4090または32GB RAMのMacでも円滑に動作可能で、ローカル展開やオンデバイス活用に有利である
  • OpenHandsのようなプラットフォームでは、ローカルコードベースと連携してイシューを素早く解決できる
  • エンタープライズ環境でプライバシー保護が必要なコードリポジトリにも適している
  • コパイロット、エージェントIDEプラグインなど多様な開発環境に適用できる

配布と利用

  • DevstralはApache 2.0ライセンスで提供され、誰でも無料で利用、カスタマイズ、再配布できる
  • モデルの利用方法ガイドやチュートリアルが提供されており、HuggingFace、Ollama、Kaggle、Unsloth、LM Studioなど多様なプラットフォームからダウンロードできる
  • Mistralの公式APIでもdevstral-small-2505の名称で提供され、Mistral Small 3.1と同じ料金ポリシーを採用している
  • エンタープライズ環境でプライベートコードベースに特化したファインチューニングなど高度なカスタマイズが必要な場合は問い合わせ可能である

今後の計画

  • Devstralは現在リサーチプレビュー段階にある
  • 今後、より大規模なエージェント型コーディングモデルも公開予定である
  • Devstralの活用やMistralのさまざまなモデル・ソリューションについて相談したい場合は、公式連絡先を通じて問い合わせできる

1件のコメント

 
GN⁺ 2025-05-22
Hacker Newsのコメント
  • 最近はOllamaでまずファイルサイズを確認していて、このモデルは14GB級だと分かった。https://ollama.com/library/devstral/tags 参照。M2 Macでは通常、モデルのファイルサイズに加えてさらに10%ほど多くメモリが必要になるので、どのアプリを並行して動かせるかRAMの余裕を見積もるのに役立っている。20GB以下のモデルなら、他のプログラムの利用にも大きな影響は出にくい。このモデルにはかなり期待している

    • ローカルモデルでうまく動くエージェント型の開発ソフトウェアのおすすめが欲しい。Cursorは使ってみたが思ったほど満足できず、むしろエディタとChatGPTを行き来するほうが良いという実感。Localforgeとaiderも試したが、ローカルモデルではやや遅い

    • それは自分も同感。実際にこのモデルをローカルで動かしてみたが、印象は良かった。Rubyやrspec関連のトリッキーなコードもうまく処理できるのを確認した。コンテキストが大きい状況でもaiderで試すつもり

  • SWE-Benchのスコアが、オープンソースモデルとしてはサイズ比で非常に高い。46.8%はo3-mini(Agentless-lite搭載)やClaude 3.6(AutoCodeRover併用)より高く、Anthropic独自のscaffoldが付いたClaude 3.6よりはやや低い。ほぼ無料で回せることまで考えると、かなり驚異的なモデル

    • 「驚異的」なのか、あるいはベンチマークがうまく機能していないのではという疑いもある

    • もしかしてClaude 3.7のことを言っているのか確認が必要

  • 24GB RAMのビデオカードがない人向けに参考情報を残す。自分は8GB RAM環境で、Ollama経由で簡単な作業にこのモデルを使っている。コンテキストウィンドウが大きい作業や時間に敏感な作業なら、有料APIの利用を勧める。

    • 総実行時間、ロード時間、トークン評価レートなどの詳細な数値を共有:
      • 例1: 35秒、毎秒6.27トークン処理
      • 例2: 4分44秒、毎秒5.79トークン処理
    • API呼び出しと比べると体感で約20%程度の速度しか出ない。推奨グラフィックカードがない条件なので、そういうものだと思う。
    • ベンチマーク性能がサイズの割に妙によく合っている気がするが、開発過程でベンチマーク最適化を何度もテストした結果である可能性が高いと思う。IT分野でマーケティングされる大半のLLMも同じ戦略だという見方。結局のところ、「テストに時間を消費せず使い物になるかを検証する」には悪くない折衷案
  • 示されているベンチマークは信用できないという立場。自分ではまだ使っていないが、Mistral系モデルのベンチマークは、実際の自分の結果ではLlamaと同じく下位寄り。実性能がここまで出るとは期待していない

    • 最近All Handsモデルを触ったが、これもMistralベースだと推測している。印象としてはClaude 3.7 Sonnetには及ばないが、かなり安定している感じ。「AIペアコーディングアシスタント」用途には十分使え、大きな構造的作業もタスクを細かく分けて指示すれば可能

    • 自分もあまり信用していない。こういうのは実際に試すべきだと思う。例えばQwen3は自分にとってはむしろ後退で、GLM4が今の標準。70bのcogitoモデルも本当に良いが、あまり話題にならない。プロジェクト、言語、用途ごとの振れ幅が大きいと思う。このモデルもそれでもぜひ試してみるつもり

  • Apache 2.0ライセンスなのが好印象。複雑な「オープンウェイト」条件付きライセンスではなく、明確な利用条件なのが良い。ここは利点

    • ここはMistralの戦略的な強みだと思う。道義的に受け入れられる用途ならGemma 3を勧める。そうでない用途ではApacheライセンスのLLMを選べる可能性が出てくる
  • EUがこのエージェント/モデルを作るコストを負担してくれるといい、というアイデア。もし本当に期待どおりの成果があるなら、Mistralは引き続き自分たちの仕事に集中できるし、ヨーロッパ側としても賢い予算の使い方になる

    • 自分の税金がapache/mitライセンスのモデル開発に使われるなら賛成。少なくとも代替モデルの維持や大企業の独占を牽制するという前向きな目的がある。結局、少数の大企業による独走を防ぐうえで重要

    • 実際、EUはAIスタートアップが使えるスーパーコンピュータの構築に資金を投じていて、Mistralもこのプログラムのパートナーとして参加している

  • LlamaIndexのツールサポートを試していて偶然このモデルを見つけた。独自のエージェント型コーディングソリューションにさまざまなモデルをつないで実験しているところで、ちょうどReAct方式を適用しようとしていたタイミングでこのモデルが出てきて驚いた。

    • ただ、自分のエージェントシステムではこのモデルが「ツールなし」しか返してこない。複数のエージェントプロンプトで「fooツールでbar作業をする」のような明示的な指示も試したが、まだ解決できていない。ToolSpecはアノテーションなどを含む標準的なPydanticオブジェクトで、他のモデルではちゃんとツール使用を見つけてくれていた経験がある

    • 出力を制限する方法でツールスキーマを強制できる。少し手助けすれば、どのモデルにも適用可能

  • Mistralがまた本当のオープンソースモデルを出してくれてうれしい。ヨーロッパに競争力のあるAI企業が必要だとずっと感じている。

    • 最近のMistral新モデルは印象的。Le Chat Proに課金して使っている。そのほかMistral Smallも本当に実用的。Mistral統合でスタートアップも開発中
  • 低スペック環境(例: MacBook Air)で動く最新のローカル実行モデルや関連情報のおすすめが欲しい。どのモデルが各デバイス仕様で「実際に使い物になるか」を、テストせず事前に知りたい。Ollamaで作業ごとに2〜3個のモデルを常に保持しておく必要があるのかも判断したい。Apple Intelligenceはまだ答えではない

    • ローカル実行に最適化された汎用モデルとしてはGemma 3や最新のMistral Smallがおすすめ。WindowsではVRAMが速度のボトルネックだが、MシリーズMacはオンチップメモリなので高速に使える。実行可能なモデル容量は、実RAMからMacOSの使用分と他アプリ用の空きを差し引いた値で決まる。

      • モデルごとのメモリ見積もりは、HuggingFaceなどで提供されている量子化(低精度)モデルのサイズを参考にするとよい。Q4_K_Mあたりを基本値と見れば妥当。
      • Devstralなら14.3GBで、ここにコンテキスト保存用としてさらに1〜8GB必要。
      • 例:
        • 32GB MacBook Air → Devstral(14.3GB)+4GB、約14GBはシステム/他アプリ用
        • 16GB MacBook Air → Gemma 3 12B(7.3GB)+2GB、約7GBの余裕
        • 8GB MacBook → Gemma 3 4B(2.5GB)+1GB、実用上はほぼ非推奨
    • 実際に試して確認するのがいちばん効果的。各モデルの容量さえ確保できれば、llama.cpp(https://github.com/ggml-org/llama.cpp) は簡単にインストール・ビルドでき、MシリーズMacBook Airのサポートも優秀。個人的にはLMStudio(https://lmstudio.ai/)を主に使っている。ChatGPTやClaudeのような扱いやすいインターフェースで、アプリ内からそのままモデルの検索・ダウンロードもできる。LMStudioだけでも入門者には十分で、自分もM2 MacBook Airでよく使っている

  • このモデルの性能がhosted LLM(例: Claude 3.7)と実際どの程度比較できるのか気になる

    • 実のところ用途がまったく違うので、直接比較してもあまり意味はない