Bark - TransformerベースのText-To-Audioモデル

xguru · 2023-04-24T09:35:19+09:00

非常にリアルな多言語音声生成が可能音楽、背景ノイズ、および簡単な効果音を含められる笑い、ため息、泣き声のような非言語コミュニケーションも表現可能英語/日本語およびドイツ語/フランス語/日本語/中国語などをサポート FacebookのEnCodecコーデックを使用 BarkはCC-BY 4.0 NCライセンスであり、Sunoモデル自体は商用利用が可能

(github.com/suno-ai)

24 ポイント投稿者 xguru 2023-04-24 | 2件のコメント | WhatsAppで共有

非常にリアルな多言語音声生成が可能
音楽、背景ノイズ、および簡単な効果音を含められる
笑い、ため息、泣き声のような非言語コミュニケーションも表現可能
英語/日本語およびドイツ語/フランス語/日本語/中国語などをサポート
FacebookのEnCodecコーデックを使用
BarkはCC-BY 4.0 NCライセンスであり、Sunoモデル自体は商用利用が可能

2件のコメント

dlehals2 2023-04-24

Bark の生成結果が、私のプロンプトと違うことがあります。何が起きているのでしょうか?
Bark は GPT スタイルのモデルです。そのため、生成時にある程度の創造的な裁量を働かせることがあり、従来のテキスト読み上げ方式よりも出力のばらつきが大きくなる場合があります。

この部分はちょっと怖いですね… たまにプロンプトと違う生成になる理由が、モデルの創造的自由? のためだとは…

kuroneko 2023-04-24

韓国語の生成がかなりうまいのが不思議ですね。

Bark - TransformerベースのText-To-Audioモデル

関連記事

2件のコメント