13 ポイント 投稿者 GN⁺ 2026-02-05 | 1件のコメント | WhatsAppで共有
  • 超低遅延のリアルタイム音声認識高精度な話者分離機能を備えた次世代の音声テキスト変換モデル
  • 2つのモデルで構成され、Voxtral Mini Transcribe V2はバッチ処理向け、Voxtral Realtimeはリアルタイムアプリケーション向けの構成
  • Realtimeモデルは200ms未満の遅延で音声をストリーミング処理し、Apache 2.0のオープンウェイトとして公開
  • Mini Transcribe V2は韓国語を含む13言語をサポートし、単語単位タイムスタンプコンテキストバイアシング話者分離などのエンタープライズ機能を提供
  • 両モデルともGDPR・HIPAA準拠のデプロイをサポートし、音声ベースのアプリケーションの精度・速度・コスト効率を大きく向上

Voxtral Transcribe 2 概要

  • Voxtral Transcribe 2は、最新の音声認識品質高精度な話者分離(diarization)超低遅延処理を特徴とする2つのモデルで構成
    • Voxtral Mini Transcribe V2: バッチ文字起こし向け
    • Voxtral Realtime: リアルタイムアプリケーション向け
  • RealtimeモデルはApache 2.0ライセンスで公開され、エッジ環境でもデプロイ可能
  • Mistral Studio内のオーディオプレイグラウンドを通じて、すぐに文字起こしのテストが可能

主な機能の要約

  • Voxtral Mini Transcribe V2: 13言語対応、話者分離、コンテキストバイアシング、単語単位タイムスタンプを提供
  • Voxtral Realtime: 200ms未満の遅延でリアルタイム文字起こしが可能で、音声エージェントやリアルタイムアプリケーションに最適
  • 効率性: 業界最安水準の単価で最高レベルの精度を提供
  • オープンウェイト: RealtimeモデルはApache 2.0の下で公開され、プライバシー重視のデプロイが可能

Voxtral Realtime

  • **遅延(latency)**が重要なアプリケーション向けに設計されたモデルで、オーディオをチャンク単位で処理せず、ストリーミングアーキテクチャでリアルタイム文字起こしを実行
  • 200ms未満の遅延に設定可能で、2.4秒遅延時はバッチモデルと同等の精度480ms遅延時でも1〜2%の誤り率を維持
  • 13言語(英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語)をサポート
  • 40億パラメータ規模でエッジデバイスでも効率的に動作し、セキュリティ・プライバシーを確保
  • モデルウェイトはHugging Face Hubで公開

Voxtral Mini Transcribe V2

  • 文字起こしと話者分離の品質が、言語とドメイン全般で大きく向上
  • FLEURSベンチマーク基準で約4%の単語誤り率$0.003/分のコストで最高水準の価格性能比を提供
  • GPT-4o mini TranscribeGemini 2.5 FlashAssembly UniversalDeepgram Novaより高精度で、ElevenLabs Scribe v2より3倍高速、コストは1/5水準

エンタープライズ機能

  • 話者分離(Speaker diarization): 発話者の識別と開始/終了時点の表示に対応し、会議・インタビュー・多者通話に最適
  • コンテキストバイアシング(Context biasing): 最大100個の単語・フレーズを指定可能で、固有名詞・専門用語の認識を向上(英語最適化、他言語は実験的)
  • 単語単位タイムスタンプ: 字幕生成、音声検索、コンテンツ整列に活用
  • 拡張された言語サポート: 13言語をサポートし、英語以外でも競合モデルに対して優れた性能
  • 耐ノイズ性: 工場、コールセンターなどの騒音環境でも精度を維持
  • 長時間オーディオ処理: 最大3時間の録音ファイルを単一リクエストで処理可能

オーディオプレイグラウンド

  • Mistral StudioでVoxtral Transcribe 2を直接テスト可能
  • 最大10個の音声ファイルをアップロードでき、話者分離・タイムスタンプ単位・コンテキストバイアシング設定をサポート
  • 対応フォーマット: .mp3, .wav, .m4a, .flac, .ogg、ファイルごとの最大サイズは1GB

多様な活用事例

  • 会議インテリジェンス: 多言語会議の文字起こしと話者識別により、大規模な会議データ分析が可能
  • 音声エージェント・仮想アシスタント: 200ms未満の遅延で自然な対話インターフェースを実現
  • コンタクトセンター自動化: リアルタイム通話文字起こしにより、感情分析、応答提案、CRM自動入力を支援
  • メディア・放送: リアルタイム多言語字幕を生成し、固有名詞・専門用語の認識を強化
  • 規制準拠・文書化: 話者別タイムスタンプに基づく監査証跡が可能
  • 両モデルともGDPRおよびHIPAA準拠のデプロイをサポートし、オンプレミスまたはプライベートクラウド環境で安全に運用可能

利用と価格

  • Voxtral Mini Transcribe V2: API利用時は**$0.003/分**、Mistral StudioまたはLe Chatで利用可能
  • Voxtral Realtime: API利用時は**$0.006/分**、Hugging Faceでオープンウェイトを提供
  • Mistralのオーディオ・文字起こし機能のドキュメントで追加情報を確認可能

1件のコメント

 
GN⁺ 2026-02-05
Hacker Newsの反応
  • このデモは本当に впечат象的だった
    マイクがないと表示されていても録音ボタンを押すとブラウザの権限要求のあとすぐ動作する
    早口で話して専門用語を混ぜても正確に書き起こす。WebAssembly のスペルまで完璧だった

    • この3年間でほぼすべての音声モデルを使ってきたけど、これは今まで見た中でも断トツで最高レベルだ
      しかもオープンウェイトなのは本当にありがたい
    • リンクありがとう。Mistral の基本 playground はファイルアップロードしかできず、速度と精度を体感しにくかったけど、このリンクはリアルタイム性能をしっかり見せてくれる
      2つの言語を同時に話してみても正確に認識した。本当に驚いた
    • 自分の環境では動かなかった。Firefox と Chromium の両方で波形は見えるのに、「Awaiting audio input」とだけ表示される
    • この API リンクが 404 エラーになる。UI 右上に赤いエラーとして表示される
    • Eminem の高速ラップ部分さえリアルタイムで書き起こすほど速度がすごい
  • 英語の認識はかなり良いが、ポーランド語で話すとロシア語かウクライナ語として認識される
    ヨーロッパ拠点の会社なら主要な欧州言語への対応をもっと良くすべきだと思う
    英語とポーランド語を混ぜて話したら、完全に混ざった結果になった

    • モデルはポーランド語をサポートしておらず、ロシア語をサポートしていると明記されている
      13言語をサポートしているが、似た語根を持つ言語が多い場合、パラメータ数や学習データの必要量がどう変わるのか気になる
    • サポート言語一覧にある言語だけでテストすることを勧める
    • 特定の言語でしか性能が高くないのは残念だ。公式には13言語のみを強力にサポートしている
    • ポーランド語とウクライナ語を混ぜると結果がロシア語になる。ウクライナ語だけを話しても常にロシア語として書き起こされるのでがっかりだ
    • ポーランド語は音韻構造上、キリル文字で表記するほうが自然だが、歴史的理由でそうなっていない。こうした点が AI を混乱させているようだ
  • FLEURS 基準で単語誤り率 4%、1分あたり $0.003 という数値が印象的だ
    Amazon Transcribeは1分あたり $0.024 なので大きな差がある

    • ただ、この料金が音声1分あたりなのか、コンピュート1分あたりなのか気になる
      たとえば fal.ai の Whisper API は「コンピュート1秒あたり $0.00125」だが、10〜25倍のリアルタイム速度で処理されるのでずっと安い
  • このモデルは14言語を理解する多言語モデルだ
    ただし大半のユースケースでは1言語だけで足りるため、残りの言語がレイテンシを増やすだけかもしれない
    今後はこうした汎用モデルから不要な部分を削る流れが出てきそうだ
    関連論文はこちらで読める

    • ただ、言語間の借用語は多いので、多言語モデルのほうがむしろ役立つかもしれない
      例: 「voila」、「el camino real」のような表現
    • このモデルは効率と精度を同時に証明したように見える
    • Azure、Google、Amazon のような既存の STT サービスは言語を明示する必要があるが、品質は依然として高い
      ただし内部的には似たLLM ベースの構造を使っているようだ
    • 人は1つの言語だけを使うわけではない。コードスイッチングは自然なので、単一言語モデルには限界がある
    • 面白いのは、上のコメントでは言語を減らそうとしているのに、別のコメントでは言語が足りないと不満を言っていることだ
  • 性能はDeepgram nova-3より競争力があり、Assembly や ElevenLabs より大半のケースで良かった
    内部テストではイギリス英語の訛りが強い 8kHz 通話データセットで評価したが、事実上SOTAレベルだ
    ただしレイテンシ分布(latency) はやや不安定だった。ローカル実行なら改善しそうだ

  • どんなハードウェアリソースが必要なのか気になる
    高性能な NVIDIA GPU を複数必要とするのか、それともESP32のような低消費電力デバイスでもオフラインで動くのか、明記されていなかった

  • これがNvidia Parakeet V3より優れているのか気になる。今のところ、自分のローカル環境ではそのモデルが最高だった

    • 自分はNemotron ASRを直接ポーティングして使っているが満足している
      モデルリンクinference ポートGGUF 版を参照
    • Parakeet V3 をローカルで使ってみたが、体感ではこのモデルのほうが少し遅い一方で、精度はより高い
    • Parakeet v3 は気に入っていたが、たまに文全体を丸ごと落とす問題があった
    • Parakeet は 0.6B なのでエッジデバイスでも動く。Voxtral は 4B なので Orin や Hailo ではリアルタイム動作は難しそうだ
    • 自分もまさにその質問をしに来た!
  • 話者分離(diarization) 機能が標準搭載だと思っていたが、リアルタイム版にはなかった
    Voxtral-Mini-4B-Realtime-2602は約 9GB のモデルだ

    • 話者分離はVoxtral Mini Transcribe V2版にのみ含まれている
  • デモを試してみたが、英語認識は素晴らしく、言語切り替えもリアルタイムで検知する
    ただしウクライナ語はまったく認識できず、常にロシア語として書き起こされる
    他の STT モデルはウクライナ語をうまく処理できるのに、これは学習データにロシア語ばかり多いようで残念だ

    • モデルがロシア語しかサポートしていないため、入力されたウクライナ語を最も近いロシア語の単語にマッピングしている
  • モデル自体は良いが、以前のバージョンは Parakeet より優れてはいなかった
    Qwen3-ASR など最新モデルとの客観的な比較が必要だ
    企業が見せる選別されたベンチマークはもう信頼しづらい
    現時点では自分の用途では Parakeet v3 が最も速く効率的だ

    • Open ASR Leaderboardはあるが、半年更新されていない
    • 自分も Parakeet が好きで、Mac では Handy アプリで使っている。
      スマホではどのアプリを使っているのか気になる