Google Universal Speech Model - あらゆる言語の音声認識のためのモデル

xguru · 2023-03-31T10:02:02+09:00

20億パラメータのモデルで、1,200万時間の音声、280億文、300言語を学習広く知られた言語から少数話者の言語まで、いずれも音声認識が可能利用者が2,000万人以下で、学習データの確保が難しい言語まで対応 YouTube の動画で評価した結果、Whisper(OpenAI)よりも単語誤り率が低いことが示された

(sites.research.google)

17 ポイント投稿者 xguru 2023-03-31 | 1件のコメント | WhatsAppで共有

20億パラメータのモデルで、1,200万時間の音声、280億文、300言語を学習
広く知られた言語から少数話者の言語まで、いずれも音声認識が可能
- 利用者が2,000万人以下で、学習データの確保が難しい言語まで対応
YouTube の動画で評価した結果、Whisper(OpenAI)よりも単語誤り率が低いことが示された

1件のコメント

xguru 2023-03-31

Whisper - OpenAIがオープンソースで公開した多言語音声認識システム(ASR)
OpenAI、Whisper v2モデルを公開

性能は良いとはいえ、論文とAPIしか公開されていないので、オープンソースとして公開されたWhisperのほうが、現時点ではまだ活用度が高いようです。

Google Universal Speech Model - あらゆる言語の音声認識のためのモデル

関連記事

1件のコメント