Google Universal Speech Model - あらゆる言語の音声認識のためのモデル (sites.research.google) 17 ポイント 投稿者 xguru 2023-03-31 | 1件のコメント | WhatsAppで共有 20億パラメータのモデルで、1,200万時間の音声、280億文、300言語を学習 広く知られた言語から少数話者の言語まで、いずれも音声認識が可能 利用者が2,000万人以下で、学習データの確保が難しい言語まで対応 YouTube の動画で評価した結果、Whisper(OpenAI)よりも単語誤り率が低いことが示された 関連記事 Google Universal Speech Model(USM): 100以上の言語をサポートする最先端の音声AI 8 ポイント · 1件のコメント · 2023-03-10 Whisper - OpenAIがオープンソースとして公開した多言語音声認識システム(ASR) 25 ポイント · 3件のコメント · 2022-09-23 Gemma Gem - ブラウザで Google Gemma 4 モデルを完全オンデバイス実行する Chrome 拡張 15 ポイント · 0件のコメント · 2026-04-18 Google、Bardを137BパラメータのLaMDAベースモデルから540BのPaLMベースへ切り替えへ 4 ポイント · 0件のコメント · 2023-04-04 1件のコメント xguru 2023-03-31 Whisper - OpenAIがオープンソースで公開した多言語音声認識システム(ASR) OpenAI、Whisper v2モデルを公開 性能は良いとはいえ、論文とAPIしか公開されていないので、オープンソースとして公開されたWhisperのほうが、現時点ではまだ活用度が高いようです。
1件のコメント
Whisper - OpenAIがオープンソースで公開した多言語音声認識システム(ASR)
OpenAI、Whisper v2モデルを公開
性能は良いとはいえ、論文とAPIしか公開されていないので、オープンソースとして公開されたWhisperのほうが、現時点ではまだ活用度が高いようです。