MMS - Metaが公開した1000以上の言語向け音声技術プロジェクト

xguru · 2023-05-24T09:45:01+09:00

Massively Multilingual Speech 従来の約100言語のみをサポートする音声認識モデルを超え、地球上で使われている7000以上の言語に向けて、数千の言語をサポートする単一の音声モデルを作るプロジェクト 1100以上の多言語音声認識（ASR）モデルと音声合成（TTS）モデル、4000以上の言語識別（LID）モデル、1400以上の言語事前学習モデルなどを提供人々がデバイス上で望む言語で情報にアクセスし、利用できるようにすることを目標プロジェクトの一環として、1100言語について各言語あたり平均32時間分の新約聖書読み上げデータセットを構築し、ラベル付けされていない多様なキリスト教文書の録音を用いて利用可能言語を4000に拡大ダウンロード可能なモデルファイル Pretraied モデル : MMS-300M (3.5GB) と MMS-1B (10GB) ASR音声認識モデルと辞書を公開: MMS-1B:FL102 (102言語, 4.5GB), MMS-1B:L1107 (1107言語, 13GB), MMS-1B-all(1162言語, 13.7GB) TTS音声合成モデル : 1107言語ごとの生成器と vocabulary ファイル LID言語識別モデル : 126, 256, 512, 1024, 2048, 4017個のモデルと辞書

(github.com/facebookresearch)

16 ポイント投稿者 xguru 2023-05-24 | 3件のコメント | WhatsAppで共有

Massively Multilingual Speech
従来の約100言語のみをサポートする音声認識モデルを超え、地球上で使われている7000以上の言語に向けて、数千の言語をサポートする単一の音声モデルを作るプロジェクト
1100以上の多言語音声認識（ASR）モデルと音声合成（TTS）モデル、4000以上の言語識別（LID）モデル、1400以上の言語事前学習モデルなどを提供
人々がデバイス上で望む言語で情報にアクセスし、利用できるようにすることを目標
プロジェクトの一環として、1100言語について各言語あたり平均32時間分の新約聖書読み上げデータセットを構築し、ラベル付けされていない多様なキリスト教文書の録音を用いて利用可能言語を4000に拡大

ダウンロード可能なモデルファイル

Pretraied モデル : MMS-300M (3.5GB) と MMS-1B (10GB)
ASR音声認識モデルと辞書を公開: MMS-1B:FL102 (102言語, 4.5GB), MMS-1B:L1107 (1107言語, 13GB), MMS-1B-all(1162言語, 13.7GB)
TTS音声合成モデル : 1107言語ごとの生成器と vocabulary ファイル
LID言語識別モデル : 126, 256, 512, 1024, 2048, 4017個のモデルと辞書

3件のコメント

kuroneko 2023-05-24

最近、音声認識やTTSモデルがたくさん出てきていますね。
そのうちこの分野も、性能が大きく向上する日がそう遠くない気がします。

ところで、キリスト教徒だと音声認識率は上がるのでしょうか？ 🤔

koyokr 2023-05-24

www

cosine20 2023-05-24

......

MMS - Metaが公開した1000以上の言語向け音声技術プロジェクト

ダウンロード可能なモデルファイル

関連記事

3件のコメント