Shazamはどのように動作するのか?
(cameronmacleod.com)- 楽曲認識アプリ Shazam の創業者たちによる2003年の論文を、そのまま実装したオープンソース
abracadabraの開発者が内容を整理 - 論文で説明されていない部分について、自分が補った方法を紹介し、Pythonコードと結び付けて解説
- なぜ楽曲認識は難しいのか?
- Spectrogram を計算して Peak を見つけ、その Peak をハッシュ化してフィンガープリントを生成
- フィンガープリントとDB内のハッシュをマッチング
3件のコメント
たぶん自分だったら、cross correlation を使って力ずくでマッチングする方法を使っていたと思いますね(笑)
わあ、本当に素晴らしいですね。何も考えずに使ってきたアプリでしたが、世の中には本当に賢い人がたくさんいるんですね。良い記事の共有ありがとうございます
興味深い内容を共有してくださってありがとうございます
pure technological magicという表現がしっくりきますね本文に含まれているフーリエ変換を説明してくれるYouTubeも面白く見ました :)