Awesome 韓国語音声認識
(github.com/rtzr)(SHOWのほうが適しているようにも見えますが、私が作ったものではないため、SHOWではなくNEWSに投稿します。)
====
韓国語音声認識を試せる開発者向けサイトのAPIについて、AI-Hubで公開されているさまざまなテストセットのエラー率(Character Error Rate)を音声認識APIごとに測定したリポジトリです。本リポジトリでは、次のような内容を扱っています。
- Return Zero(リターンゼロ)、Google、OpenAI Whisper、ETRI、Naver など、さまざまな音声認識APIを用いて AI Hub テストセットに対するエラー率(Character Error Rate)を測定
- 韓国語音声認識の評価方法の紹介
====
本プロジェクトは、さまざまな音声認識APIの性能を客観的に評価するために公開されました。現在市場で提供されている多様な音声認識サービスの性能差を分析し、それによってユーザーと開発者により良いアクセシビリティを提供することを目指しています。
論文として公開される資料は通常、英語に対してのみ性能評価を行い、WER(Word Error Rate)を paperswithcode に公開しています。しかし、韓国語音声認識は WER ではなく CER(Character Error Rate)で評価するのが適切であるにもかかわらず、よく整理されたリーダーボードを見つけることができませんでした。
KsponSpeech は2018年に初めて公開されましたが、AI-Hub には韓国内国籍者しかアクセスできず、音声認識を研究・開発する韓国人も少ないため、多様なリソースとして公開されるには至りませんでした。
リターンゼロは音声認識を自社で研究開発する中で、こうしたリソースに多くの人が触れられるようにするため、KsponSpeech を音声認識分野で広く使われている speechbrain に貢献し、現在は最新の recipe で利用でき、huggingface からもアクセスできるように貢献しました。
最近ではさまざまな種類の音声データが AI-Hub に公開されており、こうした多様なデータセットに対して韓国語音声認識エンジンがどこまで到達しているのかを評価し、知らせていくことが韓国語音声認識の発展に役立つと考えました.
まだコメントはありません。