Cohere Transcribe - SOTAオープンソース音声認識モデル

(cohere.com)

3 ポイント投稿者 GN⁺ 26 일 전 | 2件のコメント | WhatsAppで共有

英語、韓国語、中国語など14言語をサポートする、**2B（20億）パラメータ規模の最新の自動音声認識（ASR）**モデル
Conformerベースのエンコーダー・デコーダー構造を採用し、Apache 2.0ライセンスで配布
英語基準で**平均単語誤り率（WER）5.42%**を記録し、Whisper Large v3など主要競合モデルを上回り、Hugging Face Open ASR Leaderboard 1位を獲得
実環境評価と人手評価の両方で高い精度と一貫性を示し、多言語文字起こしでも安定した性能を維持
低遅延と高い処理効率を同時に実現し、リアルタイム製品やワークフローに適している

Cohere Transcribe 概要

音声は、会議記録、音声分析、リアルタイム顧客支援など、AIベース業務自動化の中核的な入力形式として台頭している
このモデルは単語誤り率（WER）の最小化を目標にゼロから訓練されており、研究用ではなく実サービス環境での利用を念頭に設計されている
GPUおよびローカル環境でも効率的に推論可能で、Cohereのマネージド推論プラットフォームModel Vaultでも利用できる
Hugging FaceのOpen ASR Leaderboardで精度1位を記録し、実環境文字起こし性能の新たな基準を提示

モデル構造

モデル名はcohere-transcribe-03-2026で、Conformerベースのエンコーダー・デコーダー構造を採用
- 入力は音声波形をlog-Melスペクトログラムに変換したもの、出力は文字起こしテキスト
- **2B（20億）**パラメータ規模の大型Conformerエンコーダーが音響表現を抽出し、軽量Transformerデコーダーがトークンを生成
標準クロスエントロピー損失を用い、ゼロから教師あり学習で訓練
14言語対応
- 欧州: 英語、フランス語、ドイツ語、イタリア語、スペイン語、ポルトガル語、ギリシャ語、オランダ語、ポーランド語
- アジア太平洋: 中国語（標準中国語）、日本語、韓国語、ベトナム語
- 中東・北アフリカ: アラビア語
- Apache 2.0ライセンスで公開

モデル性能

英語音声認識精度で最新水準を達成し、平均WER 5.42%で公開・非公開ASRモデルの中でも最高性能
- Whisper Large v3、ElevenLabs Scribe v2、Qwen3-ASR-1.7Bなど主要競合モデルを上回る
多様な実環境（複数話者、会議室音響、多様なアクセント）でも堅牢な性能を維持
主なベンチマーク結果
- AMI: 8.13, LS clean: 1.25, LS other: 2.37, Voxpopuli: 5.87
- 平均WER 5.42で、Zoom Scribe v1（5.47）、IBM Granite 4.0（5.52）、NVIDIA Canary Qwen 2.5B（5.63）より優れる
Hugging Face Open ASR Leaderboardは複数データセットにおける標準化WERで評価しており、WERが低いほど文字起こし精度が高いことを意味する

人手評価結果

ベンチマーク外の実環境評価でも同様の優れた性能を確認
- 熟練評価者が実際の音声文字起こし結果を正確性、一貫性、実用性の基準で評価
- 自動評価と人手評価の両方で一貫して優れた性能を示した
英語文字起こし品質の比較評価では、意味保持、ハルシネーション防止、固有名詞認識、書式の正確性などで高い選好を獲得
対応言語ごとの人手評価でも50%以上の選好率を記録し、多言語環境でも安定した性能を実証

処理速度と効率性

実サービス環境ではレイテンシとスループットが中核的な制約となる
- 精度が高くても遅い、あるいはリソース消費が大きいと、ユーザー体験とコストに直接影響する
Cohere Transcribeは1B超パラメータモデル群の中でも最高水準の処理効率を維持し、**低WERと高いRTFx（実時間処理倍率）**を同時に達成
RTFxは音声入力を実時間比でどれだけ速く処理できるかを示す指標で、Transcribeは精度と速度の両面でパレート最適前線を拡張
Radical Venturesの評価
- Radical Ventures副社長Paige DickieはTranscribeの速度と品質を高く評価
- 「数分の音声を数秒で文字起こしし、リアルタイム製品とワークフローの新たな可能性を開いた」と述べた
- 日常的な音声でも強力で信頼できる文字起こし品質を提供し、利用体験はスムーズだったと評価

今後の発展方向

CohereはTranscribeをAIエージェントオーケストレーションプラットフォーム Northと統合する予定
- 今後Transcribeは単なる文字起こしモデルを超え、企業向け音声インテリジェンス基盤へと拡張される計画

利用と展開

Hugging Faceでモデルをダウンロードでき、ローカルまたはエッジ環境でも実行可能
Cohere APIを通じて無料で試せるが、リクエスト制限（rate limit）がある
- 利用方法と統合ガイドは公式ドキュメントで提供
Model Vaultを使えば、インフラ管理なしで低遅延・プライベートクラウド推論が可能
- 時間単位のインスタンス課金を適用し、長期利用時には割引を提供
- 企業向け導入の問い合わせはCohere営業チームを通じて可能

2件のコメント

j2sus91 26 일 전

オープンソースではなく、有料サービスなのでしょうか？

GN⁺ 26 일 전

Hacker News の意見

ASR（自動音声認識）が最終的にOCRのようなものになるのではと心配している
マルチモーダルな大規模AIが十分に高速で文脈理解が深ければ、既存技術をすべて吸収してしまいそうだ
OCRでも文字がぼやけてスキャンされていても、AIが文書の意味を推論して「注文IDはたいてい注文日付の下にある」といったパターンで見つけ出すことがある
ASRもこのように文脈ベースで「推測」するようになると、実際の音声を歪める危険がある
- これには良い面と悪い面の両方がある
  優れたASRは、私には聞き取れない雑音混じりの音声も理解できるが、たまに補正しすぎて珍しい単語をありふれた単語に置き換えてしまう
  OCRでも Xerox事件のように、もっともらしいが誤ったデータが生まれることがある
  だから私はOCRは検索用にしか使わず、元のスキャンは常に保存している
- すでに現実はその方向に進んでいる
  gpt-4o-transcribe のようなマルチモーダルLLMは、単純な音声認識よりはるかに優れている
  会社の専門用語や組織図をプロンプトに入れられるので、「KaitlynにPRレビューを頼んで」といった文でも人物を正確に区別できる
  私が作った Mac向けオープンソースツールで、OpenAI APIキーとカスタムプロンプトを試せる
- なぜ心配するのかわからない
  技術が進歩すれば、一部の技術が消えても結局はより良い方向に進むのでは？
- ASRはすでに有用性が証明された技術だ
  Whisperの登場以降、ローカルで動く音声認識モデルが爆発的に増えた
  例: superwhisper.com, carelesswhisper.app, macwhisper.com
- STT（音声→テキスト）はしばらくローカル処理のほうが有利だと思う
  マイク付きデバイスで直接処理すれば帯域幅を大幅に減らせるし、クラウド送信が不要になるかもしれない
モデルに**タイムスタンプや話者分離（diarization）**機能がないのが残念
WhisperXが依然としてその目的に最適なのか気になる
- 商用APIでも、話者分離と単語単位タイムスタンプを安定してサポートしているところはほとんどない
  Google Chirp は区間の欠落、ハルシネーション（hallucination）、タイムスタンプ不一致など問題が多かった
  AWSは少しマシだが、それでも単語単位の同期は不安定だ
  Whisperもハルシネーションが多く、OpenAIの新モデルは高精度だがタイムスタンプをサポートしていない
  結局は後処理で解決できるが、そのまま信頼して使えるAPIがあればと思う
- WhisperXはモデルではなく、Whisperと他のモデルをまとめたソフトウェアパッケージだ
  Cohere Transcribe向け統合版もまもなく出そうだ
- Qwen-ASR を勧める
  ページ下部にタイムスタンプ付きの例がある
- Mistral Voxtral はタイムスタンプと話者分離をサポートし、ドイツ語で良い性能を示した
- whisper-timestamped もある
  追加モデルなしで、Whisperのcross-attention重みを使ってDynamic Time Warpingで整列する
私はCohereのサービスに非常に満足している
数か月前にclip-style embeddingモデルへ移行したが、これまで使った外部サービスの中でP50レイテンシが最も安定している
- 全体的な品質はどうなのか気になる
  Cohereのモデルはたいていサイズが小さく、性能も低めなので
多くのSTTモデルは完璧な発音の音声ばかり学習していて、外国訛りに弱い
フランス語訛りの英語を話す私としては、このモデルをぜひ試してみたい
これまで私の語学学習アプリ（Copycat Cafe）で最もよく動いたのはSonioxで、Whisper系モデルはむしろ幻覚文を作りがちだった
社内データセット（英国の郵便番号音声250件）でテストしたところ、かなり競争力があった
Soniox 71%、ElevenLabs 68.5%、AssemblyAI 66.9%、Deepgram 63.7%、Cohere 59.7%、Speechmatics 54% くらいだった
- compare-stt.com ではGladiaがブラインドテスト1位だったらしい
- 表のレンダリングは、行の間を2行空ければよい
- 人間の基準は248/248なのか気になる
このモデルがカスタム単語辞書やワードブースティング、プロンプト追加をサポートしていないのは残念だ
おそらくまた1つのベンチマーク重視ASRモデルなのだろう
私はTwitch配信の編集版をYouTubeに上げていて、Whisper-large-v3で字幕を生成している
良いASRの条件は
1. タイムスタンプ対応
2. 同時話者認識
3. 正確な文字起こし
4. [咳], [笑い] のような非言語表現を含むこと
5. 1万語以上の文脈注入が可能なこと
  WhisperXなら5分で文字起こしできるが、依然として文の欠落が最大の問題だ
- 3と4は、ほとんどの顧客にとってはむしろ不要な機能かもしれない
「オープンソース」と言うなら、ソースコードがあるのか、それともモデル重みだけ公開されているのか気になる
- Hugging Face からファイルを取得でき、
  ONNX変換版もあるのでCPUでも動かせる
- 多くの場合「オープンソース」は重み公開を意味する
  モデル学習はコストが高すぎるため、成果物だけ共有しても十分有用だ
- おそらくモデル自体を指す表現だろう
このモデルが同クラスのサイズでSOTAなのか気になる
Parakeetより良いのか知りたい
- Hugging Face ASRリーダーボードを見ると
  Parakeet（0.6B）は速度は速いが、WER基準では10位前後だ
- Cohereモデルは2Bパラメータで、Parakeet（0.6B、1.1B）より大きく、ベンチマークでもより良い性能を示している
昔 Dragon Dictate を使っていたが、学習に時間がかかるうえ結果もいまひとつだった
最近ポッドキャストのインタビューをしたところ、Apple Podcastsが自動でAI文字起こしを生成してくれた
誤りはそれほど多くなかったが、話者を区別できない点が最も不便だった
- あの頃は64MB RAMでも動く音声認識ソフトがあった
  子どもの頃、そういうTTS/音声認識シェアウェアを大量にダウンロードしていた

Cohere Transcribe - SOTAオープンソース音声認識モデル

Cohere Transcribe 概要

モデル構造

14言語対応

モデル性能

人手評価結果

処理速度と効率性

Radical Venturesの評価

今後の発展方向

利用と展開

関連記事

2件のコメント

Hacker News の意見