3 ポイント 投稿者 GN⁺ 2025-06-11 | 1件のコメント | WhatsAppで共有
  • Magistral は、Mistral AIが公開した ドメイン特化・透明性・多言語推論 に特化した初の推論(reasoning)モデル
  • オープンソースの Magistral Small(240億パラメータ) と、企業向けエンタープライズ版の Magistral Medium の2種類で提供
  • 思考の連鎖(Chain of Thought) に基づく多言語推論を、段階的な論理プロセスとしてユーザーの言語で透明に提供
  • AIME2024では Magistral Medium 73.6%(最高90%)、Small 70.7%(最高83.3%)の性能を示した
  • 法務、金融、ヘルスケアなどの規制産業、データエンジニアリング、ソフトウェア開発、クリエイティブコンテンツなど、さまざまな言語と業種に向けた 正確な段階的ロジック展開10倍高速な応答速度 をサポート

Magistral — Mistral AI初の推論モデルを発表

  • Magistralは、実問題の解決能力フィードバックベースの改善 に焦点を当てた reasoning モデル
  • Magistral Small は240億パラメータのオープンソース版、Magistral Medium はより強力なエンタープライズ版として提供される
  • 性能指標:
    • Magistral Medium: AIME2024で73.6%、多数決基準で90%を達成
    • Magistral Small: それぞれ70.7%、83.3%
  • グローバル言語および文字ベースの Chain of Thought 論証を適用し、母語レベルの思考展開が可能
  • 構造的計算、プログラミングロジック、意思決定ツリー、ルールベースシステム など多様な業務に適している
  • Le Chatの Think mode と Flash Answers 機能により、競合比で応答速度を10倍向上
  • 公式論文には アルゴリズム、学習インフラ、強化学習手法、トレーニングの知見 全般に関する評価を収録

モデルおよび技術の詳細

  • 透明な推論プロセス:
    • Magistralは 多段階ロジック に最適化されており、ユーザーは 推論プロセスを自分の言語で確認・追跡 できる
    • 一般的なモデルと異なり、解釈可能性 と検証機能を強化
    • 継続的なモデル更新と迅速な改善を目指す
  • 多言語推論: 英語、フランス語、スペイン語、ドイツ語、イタリア語、アラビア語、ロシア語、中国語などで高い精度と論理の一貫性を維持
  • 応答速度:
    • Magistral Mediumは Le Chatの Flash Answers 機能を通じて、競合比10倍のトークン処理速度リアルタイム推論とフィードバック をサポート
    • ChatGPTなど主要な競合モデルと比べても、速度面で卓越している ことを実証

オープンソースとコミュニティ参加

  • Magistral Smallは Apache 2.0ライセンス で公開
  • ユーザーは構造や推論方式を 直接分析、修正、再構成 できる
  • 以前のオープンソースモデルは、ether0、DeepHermes 3のような 革新的な研究プロジェクト に活用されてきた

幅広い適用事例

  • Magistralは 法務、金融、ソフトウェア開発、ストーリーテリング など、精密な段階的推論透明性 が重要な領域に最適化されている
  • ビジネス戦略と運用

    • 戦略企画、リスク評価、データに基づく意思決定、複雑な制約条件下での 最適解計算 などを実行可能
  • 規制産業および公共部門

    • 法務、金融、ヘルスケア、政府の専門家が 論理的推論経路の追跡監査可能性の確保 を行える
    • 結果の 監査可能性と規制遵守の達成 を支援
  • システム、ソフトウェア、データエンジニアリング分野

    • 非推論LLM と比べて、プログラミング、プロジェクト設計、バックエンドアーキテクチャ、データエンジニアリング 支援の品質を改善
    • 外部ツールやAPI連携など、複数段階の作業 に効果的
  • コンテンツ生成とコミュニケーション

    • Magistralは 創造的ライティング、ストーリーテリング でも優れた結果を示す
    • 一貫したテキストだけでなく、独創的で奇抜なアイデア生成も可能

利用方法と提供経路

  • Small版は ダウンロード後にセルフホスト可能
  • Medium版は Le Chat(Web)、API、Amazon SageMaker ですぐに利用可能
  • 近日中に IBM WatsonX、Azure AI、Google Cloud Marketplace でも追加サポート予定
  • 企業向けカスタマイズ、オンプレミス導入 は別途問い合わせ

1件のコメント

 
GN⁺ 2025-06-11
Hacker Newsのコメント
  • Magistral SmallモデルのGGUF版をHuggingFaceで自作してアップロードした経験を共有。ollamaでは ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL コマンドで実行でき、llama.cppでは --jinja--temp 0.7--top-p 0.95 などのオプションを必ず使ってほしいとのこと。Ollamaのコンテキスト長も8192以上に増やすのが推奨され、追加ガイドは公式ドキュメントで確認可能
    • DeepSeek関連のベンチマーク比較が興味深い点。既存のMagistral論文はDeepSeek-V3(2023年12月)およびDeepSeek-R1(2024年1月)版と比較しているが、実際には最新のDeepSeek-R1-0528版のほうがより公平な比較対象だと思う。例として、R1はAIME 2024で79.8点、R1-0528は91.4点、AIME 2025でもそれぞれ70点/87.5点と大きな差があると指摘。最新のDeepSeekベンチマークはこちらで確認可能
    • Magistral論文(PDF)は本当に印象的だという評価。論文ではGRPOを扱いながら、1) KL Divergenceの除去 2) 全長での正規化 3) advantage minibatch正規化 4) trust regionの緩和 など、さまざまな改善点を紹介している
    • 年齢認証の危険性はあるが、Unslothモデルは本当に「すごい」と絶賛。モデルが常によく動くことへの満足感を示しつつ、llama.cppで "jinja" がない場合はデフォルトで何を使うのかという疑問を呈している
    • あまり考えすぎるな、というニュアンスとともに参考資料としてgistリンクを提示
  • ベンチマーク結果だけを見ると、Magistral SmallやMediumモデルはDeepSeek-R1最新バージョンと比べて、すべてのone-shotテストで劣っているように見える。記事でも最新DeepSeek-R1にまったく触れておらず、コストも2倍以上高いため、欧州最高のAI企業とされる会社でさえ現在の技術トレンドに追いつくのに苦労しているという現実認識
    • 初期のDeepSeek R1は非常に少ない計算資源でも驚異的な性能を出していたため、新しいR1がすべてのベンチマークでo3や2.5 Proなどを圧倒していないのが不思議だという見方。Magistral Small(24B)はAIME 2024で70.7%を獲得し、R1 distill(32B)は72.6%。majority voting@64ではMagistral Smallが83.3%まで伸び、完全版R1全体より高い性能を達成する。一般的なゲーミングGPUでも24Bモデルを動かせるため、アクセスしやすさが大きな利点だと説明。関連するDistillモデルへのリンクも追加
    • AIモデル競争が激しい現状では、最新モデルより6〜12か月遅れていても、天文学的なコストをかけない選択にはエンジニアリング上大きな意味があるという考え。もちろん市場シェアの観点から「最高」のみを使いたい顧客の論理は理解できるが、永遠に赤字を出し続ける事業において市場シェアがどれほど重要なのか疑問を呈している
    • Mistralの投資家構成を見ると、実質的には欧州企業ではなく、米国資本が主要所有者だという点を強調。詳細は投資家情報リンクで確認可能
    • 多少競争力が劣るとしても、各地域が学習をコントロール可能な独自モデルを持つことは戦略的に不可欠だという意見。ただし、技術格差が大きくなりすぎると、ユーザー視点では役に立たないものと見なされるリスクがある
    • Mistralが完全な「独立型」のトレーニングパイプラインを構築した点に注目。Deepseekのような競合は、おそらくGPT-4やo1などのデータで学習したと推測している
  • Ollama、API、そしてllm-mistralプラグインを通じてMagistralモデルを実際に適用したノートを記録リンクにまとめた
    • Simonに、「自転車に乗る2羽のペリカン」の実質的な違いは何かと質問。小型版はローカルで、より高性能な大型版はAPI経由で動かしたのではないかと推測
  • Mistral OCRモデルが大々的に宣伝されていた時期に、600ページのPDFをOCR処理しなければならなかった実体験。全文が等幅テキストだったが、OCR結果の80%が画像として認識され、ほぼ空白しか出力されないなど、tesseractよりはるかにひどい水準だったという。1か月後、ひどい結果にもかかわらず請求を受け、アカウントを削除した経験も共有。今回の新製品は以前より良いかもしれないが、Mistralの過剰なマーケティングには期待を失っている状態
  • ベンチマークのサンプル選定があまりにも散発的で限定的な点への困惑。Magistral MediumだけがDeepseek V3、R1、そしてMistral Medium 3と比較されており、Magistral SmallやAlibaba Qwen、o3/o4のミニ版がなぜ抜けているのか理解できない
  • 論理的推論とWikipediaレベルの一般常識テストのために、Mistral AIに「サンパウロからパリへ向かうブラジル国民がリスボンを経由する場合、出入国審査はどこで行われるか」と質問。Mistral AIは「パリでのみ審査」と答え、Wikipedia記事を参照するよう促すと「リスボンで」と修正した。Meta AI(Llama 4)はそもそも両方とも不要だと答え、正確性に欠けていた。他のLLMの答えも気になる
    • 質問自体が実質的にひっかけ問題だという意見。実際にはシェンゲン入国地であるリスボンだけでなく、ブラジル/メルコスールの出国地であるサンパウロでも審査が必要だろうという指摘
    • Gemini(2.5 Flash)の回答が印象的だったとのこと。主な流れは、ブラジル国民は90日までシェンゲンビザが免除される、リスボンで入国審査を受けた後のパリ行きはシェンゲン内の国内線扱いになるためパリで追加審査はない、2026年にETIAS電子渡航認証制度が導入予定だが、これは事前認可にあたり審査場所には影響しない、というもの
    • 質問した本人も答えに迷っている状態だという指摘と、この手のテストではLLMがどれだけもっともらしく答えるかを比較しやすいという面白い見方
    • ブラジルとポルトガルの間に特別なビザ免除協定があり、Llama 4の答えのほうがむしろ正しい可能性もあるとして、暫定的な余地を残している
  • Qwen3をベンチマークチャートに入れてほしかったという希望。Qwen3-4BだけでもMagistral-22Bとほぼ肩を並べる性能で、Qwen3-30B-A3Bははるかに優れた結果を示している
    • 30-A3Bモデルは本当にすごいという評価。ローカルでAPIコストなしに動かしてみると、1〜2年前のクローズドモデルと比べても優秀で、特にプログラミング作業ではgpt-4oより高く評価している
    • 各種モデルのベンチマークを自動化したサイトがあるのか気になるとのこと。本人が自分で試したところでは、Qwen3-30B-A3Bが似たパラメータ/メモリ条件でも依然として最高性能だった
    • Qwen3はこれまで評価してきた中で最も印象的な推論モデルだという考え
    • Mistralはいつも他モデルのほうが優れていて実効性がなかったという評価。ただし欧州産という点に意味がある。性能に関係なく、Mistralという名前は今後も語られ続けるだろうとの予想
  • 語源に関する面白い話。「mistral」と「magistral」はどちらも "masterly"(名人のような、熟達した)という意味に由来する。mistralはもともとオック語から来ており、今では英語で主に地中海の風を指す際に使われる。magistralは "magister" の形容詞形。関連語をもっと探してドメインを確保すれば収益機会になるかもしれない
  • オープンウェイトのreasoningモデルがあとどれくらい存在するのか気になる。複数のモデルを1つの問題に同時に走らせられるのではないかと想像。また、Smallモデルを公開し、Mediumを有料サービスのまま残した点も興味深い。MediumをまるでチェーンのようにSmallを何度もつないで使う形も可能なのか、と疑問を投げかけている
    • Qwen 3、DeepSeek R1、Phi-4 Reasoningが現時点では最も優れたオープンウェイトreasoningモデルだという考え
    • 実際にはDeepSeek系しかなく、distillモデルを使えば一般消費者向けハードウェアでも動かせる
  • マーケティング文言にen-dashが多すぎるのは、モデル生成結果の文体まで反映しているのかが気になるとのこと。そうなら改善が必要だという提案
    • 実際の文句として、Magistralが創造的な作業に優れた伴走者であり、必要なら「奇妙なほど独特な」テキストも生成できると強調している
    • en-dashが49個、コンマが59個で、比率が目立って高い点を数字で言及
    • これはMistralのマーケティングスタイルにすぎず、実際のモデル生成結果では同じ比率のen-dash使用は観察されないという分析
    • LibreOfficeでは "-" を入力してスペースバーを押すとしばしばen-dashに変わるため、誤解されたくなくてわざわざ直している、という経験談の共有
    • 法曹界ではen-dashをむしろ愛好する文化がある、という冗談めいた言及