Mozilla Common Voice
(voice.mozilla.org)誰でも使える音声認識技術を作り、利用可能にするために、さまざまな言語のデータを集めて精製するオープンソースの音声データベースです。
日本語版ではまだデータがあまり足りません。参加して一緒に作りましょう。
多くの企業が作る音声データセットは、外部で利用するのが難しいことが多いです。
だからこそ、オープンに作られるデータが重要です。特に日本語ではなおさらです。
誰でも使える音声認識技術を作り、利用可能にするために、さまざまな言語のデータを集めて精製するオープンソースの音声データベースです。
日本語版ではまだデータがあまり足りません。参加して一緒に作りましょう。
多くの企業が作る音声データセットは、外部で利用するのが難しいことが多いです。
だからこそ、オープンに作られるデータが重要です。特に日本語ではなおさらです。
7件のコメント
Goalを設定する部分に韓国語がなくて、進められませんね..
韓国語データセットは、まだ文章サイトのローカライズや文セットが不足していてできなかったんですね。
サイトの日本語翻訳: https://pontoon.mozilla.org/projects/common-voice/
文収集サイト: https://common-voice.github.io/sentence-collector
サイトの翻訳が完了し、5,000文以上が収集されると、音声の収集と検証が可能になるようです。ご関心のある方はぜひご参加ください。
同じコメントを付けて、削除してしまいましたね(笑)
https://discourse.mozilla.org/t/…
ここにそのように説明されています。
あっ…はい(笑)、私も削除しようとしたんですが、削除ボタンがなくて戸惑いました…。
それと関連して、韓国語のコーパスがいくつかあるようですが、著作権の問題があるので、載せてもいいのか分からないですね。
あ、コメントの削除はコメント上部のID横にある時間のリンクを押すと、コメントページ内で削除できます。
既存で公開されている韓国語音声認識オープンソースには、Kaldi を使った Zeroth プロジェクトもあります。
( GitHub の内容を見ると、最終モデルは2018年7月版のようですね )
https://github.com/goodatlas/zeroth