Google Universal Speech Model(USM): 100以上の言語をサポートする最先端の音声AI
(ai.googleblog.com)- 昨年11月に始まった「1,000言語イニシアチブ(1,000言語をサポートする機械学習モデルの構築)」を進行中
- 現在のUSMは20億のパラメータを持ち、300を超える言語、1,200万時間の音声、280億文で学習されている
- YouTubeで字幕生成のために使用。英語/中国語だけでなく、Amharic、Cebuano、Assamese、Azerbaijaniのような言語までサポート
- 目標達成のための2つの重要な課題
- 既存の教師あり学習手法はスケーラビリティが不足
- 言語を増やすためにモデルを効率的に生成
- アプローチ: Self-supervised learning with fine-tuning(微調整を伴う自己教師あり学習)
- 論文とAPI(研究者のみ申請可能)を公開
1件のコメント
消えつつある言語や方言のようなものを、後世でも使えるようにする良い技術だと思います。