Riffusion - 音楽を生成するようにファインチューニングされたStable Diffusion
(riffusion.com)- SD 1.5をそのまま使用し、img2txtを使ってSpectrogram画像を生成するようにモデルを微調整
- 生成された画像は再生可能なオーディオクリップに変換可能
- img2img を使ってサウンドを修正可能
- 短いオーディオクリップを無限にループできるようにInterpolation
- 使いやすいようにWebアプリとして作成され、コードも公開(Next.js + React + Three.js + Tailwind)
Spectrogram : Waveform + Spectrum
- 周波数、振幅(強度)、時間を使って音のスペクトラムを視覚化して表現したもの
- STFT(Short-Time Fourier Transform)を使ってオーディオから計算可能
まだコメントはありません。