- 超低遅延のリアルタイム音声認識と高精度な話者分離機能を備えた次世代の音声テキスト変換モデル
- 2つのモデルで構成され、Voxtral Mini Transcribe V2はバッチ処理向け、Voxtral Realtimeはリアルタイムアプリケーション向けの構成
- Realtimeモデルは200ms未満の遅延で音声をストリーミング処理し、Apache 2.0のオープンウェイトとして公開
- Mini Transcribe V2は韓国語を含む13言語をサポートし、単語単位タイムスタンプ、コンテキストバイアシング、話者分離などのエンタープライズ機能を提供
- 両モデルともGDPR・HIPAA準拠のデプロイをサポートし、音声ベースのアプリケーションの精度・速度・コスト効率を大きく向上
Voxtral Transcribe 2 概要
- Voxtral Transcribe 2は、最新の音声認識品質、高精度な話者分離(diarization)、超低遅延処理を特徴とする2つのモデルで構成
- Voxtral Mini Transcribe V2: バッチ文字起こし向け
- Voxtral Realtime: リアルタイムアプリケーション向け
- RealtimeモデルはApache 2.0ライセンスで公開され、エッジ環境でもデプロイ可能
- Mistral Studio内のオーディオプレイグラウンドを通じて、すぐに文字起こしのテストが可能
主な機能の要約
- Voxtral Mini Transcribe V2: 13言語対応、話者分離、コンテキストバイアシング、単語単位タイムスタンプを提供
- Voxtral Realtime: 200ms未満の遅延でリアルタイム文字起こしが可能で、音声エージェントやリアルタイムアプリケーションに最適
- 効率性: 業界最安水準の単価で最高レベルの精度を提供
- オープンウェイト: RealtimeモデルはApache 2.0の下で公開され、プライバシー重視のデプロイが可能
Voxtral Realtime
- **遅延(latency)**が重要なアプリケーション向けに設計されたモデルで、オーディオをチャンク単位で処理せず、ストリーミングアーキテクチャでリアルタイム文字起こしを実行
- 200ms未満の遅延に設定可能で、2.4秒遅延時はバッチモデルと同等の精度、480ms遅延時でも1〜2%の誤り率を維持
- 13言語(英語、中国語、ヒンディー語、スペイン語、アラビア語、フランス語、ポルトガル語、ロシア語、ドイツ語、日本語、韓国語、イタリア語、オランダ語)をサポート
- 40億パラメータ規模でエッジデバイスでも効率的に動作し、セキュリティ・プライバシーを確保
- モデルウェイトはHugging Face Hubで公開
Voxtral Mini Transcribe V2
- 文字起こしと話者分離の品質が、言語とドメイン全般で大きく向上
- FLEURSベンチマーク基準で約4%の単語誤り率、$0.003/分のコストで最高水準の価格性能比を提供
- GPT-4o mini Transcribe、Gemini 2.5 Flash、Assembly Universal、Deepgram Novaより高精度で、ElevenLabs Scribe v2より3倍高速、コストは1/5水準
エンタープライズ機能
- 話者分離(Speaker diarization): 発話者の識別と開始/終了時点の表示に対応し、会議・インタビュー・多者通話に最適
- コンテキストバイアシング(Context biasing): 最大100個の単語・フレーズを指定可能で、固有名詞・専門用語の認識を向上(英語最適化、他言語は実験的)
- 単語単位タイムスタンプ: 字幕生成、音声検索、コンテンツ整列に活用
- 拡張された言語サポート: 13言語をサポートし、英語以外でも競合モデルに対して優れた性能
- 耐ノイズ性: 工場、コールセンターなどの騒音環境でも精度を維持
- 長時間オーディオ処理: 最大3時間の録音ファイルを単一リクエストで処理可能
オーディオプレイグラウンド
- Mistral StudioでVoxtral Transcribe 2を直接テスト可能
- 最大10個の音声ファイルをアップロードでき、話者分離・タイムスタンプ単位・コンテキストバイアシング設定をサポート
- 対応フォーマット: .mp3, .wav, .m4a, .flac, .ogg、ファイルごとの最大サイズは1GB
多様な活用事例
- 会議インテリジェンス: 多言語会議の文字起こしと話者識別により、大規模な会議データ分析が可能
- 音声エージェント・仮想アシスタント: 200ms未満の遅延で自然な対話インターフェースを実現
- コンタクトセンター自動化: リアルタイム通話文字起こしにより、感情分析、応答提案、CRM自動入力を支援
- メディア・放送: リアルタイム多言語字幕を生成し、固有名詞・専門用語の認識を強化
- 規制準拠・文書化: 話者別タイムスタンプに基づく監査証跡が可能
- 両モデルともGDPRおよびHIPAA準拠のデプロイをサポートし、オンプレミスまたはプライベートクラウド環境で安全に運用可能
利用と価格
- Voxtral Mini Transcribe V2: API利用時は**$0.003/分**、Mistral StudioまたはLe Chatで利用可能
- Voxtral Realtime: API利用時は**$0.006/分**、Hugging Faceでオープンウェイトを提供
- Mistralのオーディオ・文字起こし機能のドキュメントで追加情報を確認可能
1件のコメント
Hacker Newsの反応
このデモは本当に впечат象的だった
マイクがないと表示されていても録音ボタンを押すとブラウザの権限要求のあとすぐ動作する
早口で話して専門用語を混ぜても正確に書き起こす。WebAssembly のスペルまで完璧だった
しかもオープンウェイトなのは本当にありがたい
2つの言語を同時に話してみても正確に認識した。本当に驚いた
英語の認識はかなり良いが、ポーランド語で話すとロシア語かウクライナ語として認識される
ヨーロッパ拠点の会社なら主要な欧州言語への対応をもっと良くすべきだと思う
英語とポーランド語を混ぜて話したら、完全に混ざった結果になった
13言語をサポートしているが、似た語根を持つ言語が多い場合、パラメータ数や学習データの必要量がどう変わるのか気になる
FLEURS 基準で単語誤り率 4%、1分あたり $0.003 という数値が印象的だ
Amazon Transcribeは1分あたり $0.024 なので大きな差がある
たとえば fal.ai の Whisper API は「コンピュート1秒あたり $0.00125」だが、10〜25倍のリアルタイム速度で処理されるのでずっと安い
このモデルは14言語を理解する多言語モデルだ
ただし大半のユースケースでは1言語だけで足りるため、残りの言語がレイテンシを増やすだけかもしれない
今後はこうした汎用モデルから不要な部分を削る流れが出てきそうだ
関連論文はこちらで読める
例: 「voila」、「el camino real」のような表現
ただし内部的には似たLLM ベースの構造を使っているようだ
性能はDeepgram nova-3より競争力があり、Assembly や ElevenLabs より大半のケースで良かった
内部テストではイギリス英語の訛りが強い 8kHz 通話データセットで評価したが、事実上SOTAレベルだ
ただしレイテンシ分布(latency) はやや不安定だった。ローカル実行なら改善しそうだ
どんなハードウェアリソースが必要なのか気になる
高性能な NVIDIA GPU を複数必要とするのか、それともESP32のような低消費電力デバイスでもオフラインで動くのか、明記されていなかった
これがNvidia Parakeet V3より優れているのか気になる。今のところ、自分のローカル環境ではそのモデルが最高だった
モデルリンクとinference ポート、GGUF 版を参照
話者分離(diarization) 機能が標準搭載だと思っていたが、リアルタイム版にはなかった
Voxtral-Mini-4B-Realtime-2602は約 9GB のモデルだ
デモを試してみたが、英語認識は素晴らしく、言語切り替えもリアルタイムで検知する
ただしウクライナ語はまったく認識できず、常にロシア語として書き起こされる
他の STT モデルはウクライナ語をうまく処理できるのに、これは学習データにロシア語ばかり多いようで残念だ
モデル自体は良いが、以前のバージョンは Parakeet より優れてはいなかった
Qwen3-ASR など最新モデルとの客観的な比較が必要だ
企業が見せる選別されたベンチマークはもう信頼しづらい
現時点では自分の用途では Parakeet v3 が最も速く効率的だ
スマホではどのアプリを使っているのか気になる