口で出した音をサウンドエフェクトにしてくれるオープンソースプロジェクト(New UX for sound generation)
(github.com/thxxx)こんにちは。モデルを1つ作ってオープンソースとして公開したので、共有してみます。
映像やゲームを作るために、特定のサウンドが必要になったことはありませんか?
頭の中にはどんな音か正確にあるのに、それをどう表現して探せばいいのか、方法がなかったはずです。
そんな理由から、ゲームスタジオのサウンド関連ミーティングに入ってみると、会話よりもこんな音のほうが多く聞こえてきます。
「フュフュ―よりは、ピユ↘︎ピユ↘︎のほうがいいんだけど」
そこで作りました!
私が作ったモデルは、欲しい音を口でまねして出し、それをテキストと一緒にモデルへ入力すると、そのサウンドエフェクトを生成してくれるモデルです。(かなり多くの時間とデータを使用)
repo: https://github.com/thxxx/VTS
demo: https://spicy-pufferfish-699.notion.site/VTS-347cf95761f480f19dc0eb790…
(demo リンクに入って聞いてみると、これがどういう意味かずっとイメージしやすくなると思います笑)
11件のコメント
本当に素晴らしいプロジェクトですね!
「自分が望むことを、どうすればAIエージェントにわかりやすく説明できるのか」
最近は本当に重要なポイントだと思いますし、多くの検討が必要な領域です。
私たちがITサービスのUI/UX領域の発展を見守ってきたように、AIに関するユーザー体験もこれから蓄積されていき、何が有効で重要なのかについて多くの議論が生まれそうで、楽しみです。
映画のSFX作業に活用しやすそうです
でも、デモでは口で出した音のほうが効果音としてもっとかっこいいですね
かなりテストしたので、すっかり慣れましたね
これ、本当に面白いですね(笑)
ありがとうございます(笑)
面白いですね。入力として声だけでなく、ちょっとポケモンっぽい?R2D2っぽい?ような音も可能でしょうか?
いえ、学習自体を声で行ったわけではないので、あらゆる Sound to Sound が可能そうです。とはいえ、ポケモンの声でテストしたことはまだないです(笑)
おお、それならLLMが数式みたいなものを生成して強弱を調整する電子音を作って、それをテキストと一緒に入力として入れてサウンドエフェクトを出力すれば、その場その場に合った効果音も生成できそうですね。すごいです
これは面白いですねwwwww
ありがとうございます(笑)