Cohere Transcribe - SOTAオープンソース音声認識モデル
(cohere.com)- 英語、韓国語、中国語など14言語をサポートする、**2B(20億)パラメータ規模の最新の自動音声認識(ASR)**モデル
- Conformerベースのエンコーダー・デコーダー構造を採用し、Apache 2.0ライセンスで配布
- 英語基準で**平均単語誤り率(WER)5.42%**を記録し、Whisper Large v3など主要競合モデルを上回り、Hugging Face Open ASR Leaderboard 1位を獲得
- 実環境評価と人手評価の両方で高い精度と一貫性を示し、多言語文字起こしでも安定した性能を維持
- 低遅延と高い処理効率を同時に実現し、リアルタイム製品やワークフローに適している
Cohere Transcribe 概要
- 音声は、会議記録、音声分析、リアルタイム顧客支援など、AIベース業務自動化の中核的な入力形式として台頭している
- このモデルは単語誤り率(WER)の最小化を目標にゼロから訓練されており、研究用ではなく実サービス環境での利用を念頭に設計されている
- GPUおよびローカル環境でも効率的に推論可能で、Cohereのマネージド推論プラットフォームModel Vaultでも利用できる
- Hugging FaceのOpen ASR Leaderboardで精度1位を記録し、実環境文字起こし性能の新たな基準を提示
モデル構造
- モデル名はcohere-transcribe-03-2026で、Conformerベースのエンコーダー・デコーダー構造を採用
- 入力は音声波形をlog-Melスペクトログラムに変換したもの、出力は文字起こしテキスト
- **2B(20億)**パラメータ規模の大型Conformerエンコーダーが音響表現を抽出し、軽量Transformerデコーダーがトークンを生成
- 標準クロスエントロピー損失を用い、ゼロから教師あり学習で訓練
-
14言語対応
- 欧州: 英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語、ギリシャ語、オランダ語、ポーランド語
- アジア太平洋: 中国語(標準中国語)、日本語、韓国語、ベトナム語
- 中東・北アフリカ: アラビア語
- Apache 2.0ライセンスで公開
モデル性能
- 英語音声認識精度で最新水準を達成し、平均WER 5.42%で公開・非公開ASRモデルの中でも最高性能
- Whisper Large v3、ElevenLabs Scribe v2、Qwen3-ASR-1.7Bなど主要競合モデルを上回る
- 多様な実環境(複数話者、会議室音響、多様なアクセント)でも堅牢な性能を維持
- 主なベンチマーク結果
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- 平均WER 5.42で、Zoom Scribe v1(5.47)、IBM Granite 4.0(5.52)、NVIDIA Canary Qwen 2.5B(5.63)より優れる
- Hugging Face Open ASR Leaderboardは複数データセットにおける標準化WERで評価しており、WERが低いほど文字起こし精度が高いことを意味する
人手評価結果
- ベンチマーク外の実環境評価でも同様の優れた性能を確認
- 熟練評価者が実際の音声文字起こし結果を正確性、一貫性、実用性の基準で評価
- 自動評価と人手評価の両方で一貫して優れた性能を示した
- 英語文字起こし品質の比較評価では、意味保持、ハルシネーション防止、固有名詞認識、書式の正確性などで高い選好を獲得
- 対応言語ごとの人手評価でも50%以上の選好率を記録し、多言語環境でも安定した性能を実証
処理速度と効率性
- 実サービス環境ではレイテンシとスループットが中核的な制約となる
- 精度が高くても遅い、あるいはリソース消費が大きいと、ユーザー体験とコストに直接影響する
- Cohere Transcribeは1B超パラメータモデル群の中でも最高水準の処理効率を維持し、**低WERと高いRTFx(実時間処理倍率)**を同時に達成
- RTFxは音声入力を実時間比でどれだけ速く処理できるかを示す指標で、Transcribeは精度と速度の両面でパレート最適前線を拡張
-
Radical Venturesの評価
- Radical Ventures副社長Paige DickieはTranscribeの速度と品質を高く評価
- 「数分の音声を数秒で文字起こしし、リアルタイム製品とワークフローの新たな可能性を開いた」と述べた
- 日常的な音声でも強力で信頼できる文字起こし品質を提供し、利用体験はスムーズだったと評価
今後の発展方向
- CohereはTranscribeをAIエージェントオーケストレーションプラットフォーム Northと統合する予定
- 今後Transcribeは単なる文字起こしモデルを超え、企業向け音声インテリジェンス基盤へと拡張される計画
利用と展開
- Hugging Faceでモデルをダウンロードでき、ローカルまたはエッジ環境でも実行可能
- Cohere APIを通じて無料で試せるが、リクエスト制限(rate limit)がある
- 利用方法と統合ガイドは公式ドキュメントで提供
- Model Vaultを使えば、インフラ管理なしで低遅延・プライベートクラウド推論が可能
- 時間単位のインスタンス課金を適用し、長期利用時には割引を提供
- 企業向け導入の問い合わせはCohere営業チームを通じて可能
2件のコメント
オープンソースではなく、有料サービスなのでしょうか?
Hacker News の意見
ASR(自動音声認識)が最終的にOCRのようなものになるのではと心配している
マルチモーダルな大規模AIが十分に高速で文脈理解が深ければ、既存技術をすべて吸収してしまいそうだ
OCRでも文字がぼやけてスキャンされていても、AIが文書の意味を推論して「注文IDはたいてい注文日付の下にある」といったパターンで見つけ出すことがある
ASRもこのように文脈ベースで「推測」するようになると、実際の音声を歪める危険がある
優れたASRは、私には聞き取れない雑音混じりの音声も理解できるが、たまに補正しすぎて珍しい単語をありふれた単語に置き換えてしまう
OCRでも Xerox事件 のように、もっともらしいが誤ったデータが生まれることがある
だから私はOCRは検索用にしか使わず、元のスキャンは常に保存している
gpt-4o-transcribe のようなマルチモーダルLLMは、単純な音声認識よりはるかに優れている
会社の専門用語や組織図をプロンプトに入れられるので、「KaitlynにPRレビューを頼んで」といった文でも人物を正確に区別できる
私が作った Mac向けオープンソースツール で、OpenAI APIキーとカスタムプロンプトを試せる
技術が進歩すれば、一部の技術が消えても結局はより良い方向に進むのでは?
Whisperの登場以降、ローカルで動く音声認識モデルが爆発的に増えた
例: superwhisper.com, carelesswhisper.app, macwhisper.com
マイク付きデバイスで直接処理すれば帯域幅を大幅に減らせるし、クラウド送信が不要になるかもしれない
モデルに**タイムスタンプや話者分離(diarization)**機能がないのが残念
WhisperXが依然としてその目的に最適なのか気になる
Google Chirp は区間の欠落、ハルシネーション(hallucination)、タイムスタンプ不一致など問題が多かった
AWSは少しマシだが、それでも単語単位の同期は不安定だ
Whisperもハルシネーションが多く、OpenAIの新モデルは高精度だがタイムスタンプをサポートしていない
結局は後処理で解決できるが、そのまま信頼して使えるAPIがあればと思う
Cohere Transcribe向け統合版もまもなく出そうだ
ページ下部にタイムスタンプ付きの例がある
追加モデルなしで、Whisperのcross-attention重みを使ってDynamic Time Warpingで整列する
私はCohereのサービスに非常に満足している
数か月前にclip-style embeddingモデルへ移行したが、これまで使った外部サービスの中でP50レイテンシが最も安定している
Cohereのモデルはたいていサイズが小さく、性能も低めなので
多くのSTTモデルは完璧な発音の音声ばかり学習していて、外国訛りに弱い
フランス語訛りの英語を話す私としては、このモデルをぜひ試してみたい
これまで私の語学学習アプリ(Copycat Cafe)で最もよく動いたのはSonioxで、Whisper系モデルはむしろ幻覚文を作りがちだった
社内データセット(英国の郵便番号音声250件)でテストしたところ、かなり競争力があった
Soniox 71%、ElevenLabs 68.5%、AssemblyAI 66.9%、Deepgram 63.7%、Cohere 59.7%、Speechmatics 54% くらいだった
このモデルがカスタム単語辞書やワードブースティング、プロンプト追加をサポートしていないのは残念だ
おそらくまた1つのベンチマーク重視ASRモデルなのだろう
私はTwitch配信の編集版をYouTubeに上げていて、Whisper-large-v3で字幕を生成している
良いASRの条件は
WhisperXなら5分で文字起こしできるが、依然として文の欠落が最大の問題だ
「オープンソース」と言うなら、ソースコードがあるのか、それともモデル重みだけ公開されているのか気になる
ONNX変換版 もあるのでCPUでも動かせる
モデル学習はコストが高すぎるため、成果物だけ共有しても十分有用だ
このモデルが同クラスのサイズでSOTAなのか気になる
Parakeetより良いのか知りたい
Parakeet(0.6B)は速度は速いが、WER基準では10位前後だ
昔 Dragon Dictate を使っていたが、学習に時間がかかるうえ結果もいまひとつだった
最近ポッドキャストのインタビューをしたところ、Apple Podcastsが自動でAI文字起こしを生成してくれた
誤りはそれほど多くなかったが、話者を区別できない点が最も不便だった
子どもの頃、そういうTTS/音声認識シェアウェアを大量にダウンロードしていた