- Massively Multilingual Speech
- 従来の約100言語のみをサポートする音声認識モデルを超え、地球上で使われている7000以上の言語に向けて、数千の言語をサポートする単一の音声モデルを作るプロジェクト
- 1100以上の多言語音声認識(ASR)モデルと音声合成(TTS)モデル、4000以上の言語識別(LID)モデル、1400以上の言語事前学習モデルなどを提供
- 人々がデバイス上で望む言語で情報にアクセスし、利用できるようにすることを目標
- プロジェクトの一環として、1100言語について各言語あたり平均32時間分の新約聖書読み上げデータセットを構築し、ラベル付けされていない多様なキリスト教文書の録音を用いて利用可能言語を4000に拡大
ダウンロード可能なモデルファイル
- Pretraied モデル : MMS-300M (3.5GB) と MMS-1B (10GB)
- ASR音声認識モデルと辞書を公開: MMS-1B:FL102 (102言語, 4.5GB), MMS-1B:L1107 (1107言語, 13GB), MMS-1B-all(1162言語, 13.7GB)
- TTS音声合成モデル : 1107言語ごとの生成器と vocabulary ファイル
- LID言語識別モデル : 126, 256, 512, 1024, 2048, 4017個のモデルと辞書
3件のコメント
最近、音声認識やTTSモデルがたくさん出てきていますね。
そのうちこの分野も、性能が大きく向上する日がそう遠くない気がします。
ところで、キリスト教徒だと音声認識率は上がるのでしょうか? 🤔
www
......