- Anna’s Archive が Spotify の メタデータと音楽ファイル全体をバックアップ し、約 300TB規模のトレントアーカイブ として公開
- 約 2億5600万曲のメタデータ と 8600万件の音楽ファイル を含み、再生数の99.6% をカバー
- 人気曲は OGG Vorbis 160kbit/s の原本品質で、非人気曲は OGG Opus 75kbit/s で保存し、効率的な保全を実現
- データは SQLiteデータベース 形式で提供され、プレイリスト・オーディオ特徴量・アルバムアート などの詳細構造まで含む
- 人類の音楽遺産を 自然災害・戦争・予算削減などから恒久的に保存 するための、世界初の完全公開型音楽保存アーカイブ
プロジェクト概要
- Anna’s Archive は Spotify の 音楽メタデータとファイル全体を大規模にスクレイピング してバックアップ
- 総容量は約 300TB、人気順にグループ化されたトレント 形式で配布
- 2億5600万トラック、1億8600万件の固有ISRCコード を含む
- このアーカイブは 誰でもミラー可能な完全公開型の音楽保存リポジトリ で、8600万件の音楽ファイル を含む
- これは Spotify 全体の再生の 約99.6% を代表
- Anna’s Archive は従来 テキスト中心(書籍・論文など) の保存に注力していたが、今回は 音楽という非文字メディア に拡張
- Spotify の構造的なスクレイピング手法を発見した後、音楽保存中心のアーカイブ構築 を推進
既存の音楽保存の限界
- 既存の音楽保存の試みには、主に3つの問題が存在
- 人気アーティスト中心の偏り により、非主流の音楽が埋もれる
- ロスレス音質への執着 による非効率な保存容量
- 全音楽を代表するトレント一覧の欠如
- 今回の Spotify バックアップは、こうした問題を補い 保存重視の音楽アーカイブ を構築
データ構成と統計
- Spotify の約 2億5600万トラックのうち99.9%のメタデータ を確保
- 人気指標(popularity) を基準に優先順位を設定
popularity>0 のトラックは OGG Vorbis 160kbit/s の原本品質で保存
popularity=0 のトラックは OGG Opus 75kbit/s に再エンコード
- 2025年7月以前 にリリースされた曲の大半を含む
- 上位3曲(Lady Gaga・Billie Eilish・Bad Bunny)の総ストリーミング数は、下位2000万〜1億曲の合計より多い
- 全曲のうち 70%以上が再生回数1000回未満 の非人気曲
トレント配布構造
- データは メタデータと音楽ファイル の2部分で構成
- メタデータ: SQLite DB で提供、約 200GB(圧縮)
- オーディオ分析データ: 4TB(圧縮)
- 音楽ファイルは Anna’s Archive Containers (AAC) フォーマットで配布
- Spotify の不正な OGG パケットを除去した後、タイトル・ISRC・アルバムアート・リプレイゲイン情報 などのメタデータを挿入
- 一部ファイルに
REPLAYGAIN_ALBUM_PEAK タグの不具合あり
データ探索と分析
- 人気分布: 再生の大半は
popularity 50~80 区間の曲で発生
- トラック長: 2分・3分・4分単位でピークが発生
- Explicitコンテンツ と ISRC重複曲 の統計を含む
- アーティストのジャンル分布: 詳細ジャンル別およびグループ化ジャンル別の可視化を提供
- アルバム発売年分析: 近年、自動生成・AI生成音楽が急増
- オーディオ特徴量分析: BPM平均は約120、loudness と energy の相関関係 を確認
メタデータ詳細構造
- 主な SQLite ファイル構成
spotify_clean.sqlite3: アーティスト・アルバム・トラックのほぼ完全な API 複製
spotify_clean_audio_features.sqlite3: トラックごとの BPM, key, energy, valence などのオーディオ特徴量 を保存
spotify_clean_playlists.sqlite3: 660万件のプレイリスト、17億件のトラック項目 を含む
spotify_clean_track_files.sqlite3: トラックと実ファイルの対応付け、ファイル状態・SHA256ハッシュ・ライセンサー情報 を含む
- 追加の JSONL ファイルとして オーディオブック・ポッドキャスト・ショー・エピソードデータ を含む
spotify_2025_07_coverart.tar.torrent には アルバムアート画像ファイル を保存
参加と保存への協力要請
- Anna’s Archive は 寄付とトレントのシーディング参加 を呼びかけ
- 目標は 自然災害・戦争・予算削減などから人類の音楽遺産を恒久的に保存 すること
追加機能と実験
- Spotify の全トラックを対象にした 「True Shuffle」機能 の実装が可能
- SQLite クエリにより 真のランダム再生リスト を生成
- 今後、関心が十分に集まれば 個別ファイルのダウンロード機能 を追加する可能性に言及
要約
- Anna’s Archive は Spotify のほぼ全データをバックアップし、世界最大の公開音楽メタデータベース を構築
- 完全公開型の保存アーカイブ として、誰でもミラー可能
- データ構造の透明性、技術的精密さ、長期保存性 を兼ね備えたプロジェクト
- 音楽業界の商用プラットフォーム依存を超え、文化的記録の恒久保存基盤 を整備
7件のコメント
Spotify は怒るでしょうか
Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
最近のニュースを見ると、訴えられたそうですね
義賊と無法者の間、そのどこか……
著作権は、、、
これで、これまでSunoのように商用にとどまっていた音楽生成モデルも、open-weight・open-sourceとして学習できるようになりそうですね
すごいですね……
Hacker Newsの意見
本当に驚くべきことだ
SpotifyのDRMが突破されて、これほど大規模にダウンロードできるようになっていたとは知らなかった
一般ユーザーにはあまり役に立たなそうだが、音楽の分類や生成を研究する人たちにとっては大きな機会になり得る
ただ、どのデータセットで学習したのかを公開するのは難しそうだ
これがAI研究者たちの要請によるものなのか、それとも単なる保存目的なのか気になる
すでに違法なTV・映画ストリーミングを自動で見つける機器やアプリは普及している
技術的には十分可能で、家族の中の非専門家でもこういうものを使っている
ただしAnna’s Archiveチームはイデオロギー的動機で動く集団であって、AI企業のためではない
音楽が必要ならytldpでYouTubeから取っていたが、最近はそれもほとんどしない
音楽よりニュースやバックグラウンド用途でYouTubeをよく使う
Googleがこれを支配しているのは少し悲しい
Spotifyのような企業を規制してミュージシャンへの正当な報酬を保証するのが本来の方向だ
こうしたデータ公開はむしろAIのゴミ生成を助長する
規模を考えると本当に途方もない
昔のWhat.CDは「音楽界のアレクサンドリア図書館」と呼ばれていたが、それでも数百万件のトレント規模だった
ところがAnnaのSpotifyリップには1億8600万件のユニークなレコードが含まれている
もちろん末尾のほうにはボット音楽のようなものも混じっているだろうが、規模そのものが圧倒的だ
田舎のバンドの初期EPから、権利関係が不明でストリーミングに載せられない希少な音源まであった
コミュニティの推薦やレビュー、手作業のプレイリストが生み出す発見の楽しさはアルゴリズムでは代替できない
おかげで今でも好きなアーティストをたくさん知ることができた
純粋に音楽を愛するコミュニティで、Trent Reznorも公に称賛していた
今ではこうした純粋な音楽コミュニティがなくなってしまって残念だ
Spotifyはストリーミングライセンスのある曲しか含まないので限界がある
完全な音楽アーカイブになるにはまだ先が長い
私はこういうプロジェクトは絶対に必要だと思う
Anna’s Archiveのような場所はInternet Archiveと同じくらい重要だ
ウェブサイト、ゲーム、本などデジタル遺産の保存が核心だ
世代が変わるにつれて、過去のウェブの創造性を体験できない人も多い
今の世代こそ、こうしたものを保存できる機会を持つ世代だと思う
最近は音楽や映画がプラットフォームから一つずつ消えていく時代なので、こうした保存は本当に重要だ
私にもグレーアウトしたプレイリストが3つある。タイトルすら消えていて、何を聴いていたのかも分からない
だから永久に持っていたい音楽はCDで買い、ダンスミュージックはそのまま流している
こうした作業は本当に重要なことだ
10年前の記事を見るだけでも、外部リンクの大半は404で消えている
すべてを保存すべきかという疑問はあるが、できるなら保存すべきだ
驚きだ
Spotifyを大規模にスクレイピングしたという事実そのものが興味深い
詳細な方法は公開しないだろうが、読めたら面白そうだ
ただし乱用せず、趣味プロジェクトの範囲で楽しむのがよい
私の音楽サーバーもこういう方式でSpotifyのトラックを再生している
コードリンク
個人的にはこれはあまり気に入らない
もっと良い音質のソースはすでにあるし、こうした大規模リップは法的リスクを高めるだけだ
特に電子書籍ライブラリまで危険になるのではと心配している
告知文でも「音楽はすでに十分保存されている」と書いていたのだから、別プロジェクトとして分けるべきだった
ドイツのインターネットプロバイダ(SIM.de/Drillisch)がAnna’s Archiveをブロックしていた
VPNを切ると接続できず、Mullvad VPNをオンにしたときだけ開ける
ドイツでこんな検閲があるとは知らなかった
alextud popcorntimeを検索しても、PopcornTimeTV GitHubの結果が出てこないGoogle、Kagi、DuckDuckGo、Bingでも同じだ
フォークは出るのに元のものは出ないので、検索フィルタリングが疑われる
以前、複数のプラットフォームで同時に削除された音楽があった
こうしたアーカイブでまた見つけられるのか気になる
今では現代版ロストメディアが毎日のように生まれている
一部のパブリッシャーは意図的にすべてのコピーを消そうとしているが、それは精神的におぞましい行為だと思う
創作物を完全に破壊することは、どんな理由でも正当化できない
鉄の金庫の中のテープにしか残っていないのなら、それは存在しないのと変わらない
技術的には、トレントをバックエンドにしたストリーミングサーバーを作ることも可能だ
リクエストが来るたびに必要な部分だけダウンロードする方式だ
関連論文リンク
Spotifyは今のところ安いので気にしていないが、アーティスト報酬の問題は依然として残っている
いつかトレントベースのセルフホスティング音楽サーバーが簡単に構築できるようになってほしい