29 ポイント 投稿者 GN⁺ 2025-12-21 | 7件のコメント | WhatsAppで共有
  • Anna’s Archive が Spotify の メタデータと音楽ファイル全体をバックアップ し、約 300TB規模のトレントアーカイブ として公開
  • 2億5600万曲のメタデータ8600万件の音楽ファイル を含み、再生数の99.6% をカバー
  • 人気曲は OGG Vorbis 160kbit/s の原本品質で、非人気曲は OGG Opus 75kbit/s で保存し、効率的な保全を実現
  • データは SQLiteデータベース 形式で提供され、プレイリスト・オーディオ特徴量・アルバムアート などの詳細構造まで含む
  • 人類の音楽遺産を 自然災害・戦争・予算削減などから恒久的に保存 するための、世界初の完全公開型音楽保存アーカイブ

プロジェクト概要

  • Anna’s Archive は Spotify の 音楽メタデータとファイル全体を大規模にスクレイピング してバックアップ
    • 総容量は約 300TB人気順にグループ化されたトレント 形式で配布
    • 2億5600万トラック1億8600万件の固有ISRCコード を含む
  • このアーカイブは 誰でもミラー可能な完全公開型の音楽保存リポジトリ で、8600万件の音楽ファイル を含む
    • これは Spotify 全体の再生の 約99.6% を代表
  • Anna’s Archive は従来 テキスト中心(書籍・論文など) の保存に注力していたが、今回は 音楽という非文字メディア に拡張
  • Spotify の構造的なスクレイピング手法を発見した後、音楽保存中心のアーカイブ構築 を推進

既存の音楽保存の限界

  • 既存の音楽保存の試みには、主に3つの問題が存在
    1. 人気アーティスト中心の偏り により、非主流の音楽が埋もれる
    2. ロスレス音質への執着 による非効率な保存容量
    3. 全音楽を代表するトレント一覧の欠如
  • 今回の Spotify バックアップは、こうした問題を補い 保存重視の音楽アーカイブ を構築

データ構成と統計

  • Spotify の約 2億5600万トラックのうち99.9%のメタデータ を確保
  • 人気指標(popularity) を基準に優先順位を設定
    • popularity>0 のトラックは OGG Vorbis 160kbit/s の原本品質で保存
    • popularity=0 のトラックは OGG Opus 75kbit/s に再エンコード
  • 2025年7月以前 にリリースされた曲の大半を含む
  • 上位3曲(Lady Gaga・Billie Eilish・Bad Bunny)の総ストリーミング数は、下位2000万〜1億曲の合計より多い
  • 全曲のうち 70%以上が再生回数1000回未満 の非人気曲

トレント配布構造

  • データは メタデータと音楽ファイル の2部分で構成
    • メタデータ: SQLite DB で提供、約 200GB(圧縮)
    • オーディオ分析データ: 4TB(圧縮)
  • 音楽ファイルは Anna’s Archive Containers (AAC) フォーマットで配布
    • Spotify の不正な OGG パケットを除去した後、タイトル・ISRC・アルバムアート・リプレイゲイン情報 などのメタデータを挿入
    • 一部ファイルに REPLAYGAIN_ALBUM_PEAK タグの不具合あり

データ探索と分析

  • 人気分布: 再生の大半は popularity 50~80 区間の曲で発生
  • トラック長: 2分・3分・4分単位でピークが発生
  • ExplicitコンテンツISRC重複曲 の統計を含む
  • アーティストのジャンル分布: 詳細ジャンル別およびグループ化ジャンル別の可視化を提供
  • アルバム発売年分析: 近年、自動生成・AI生成音楽が急増
  • オーディオ特徴量分析: BPM平均は約120、loudness と energy の相関関係 を確認

メタデータ詳細構造

  • 主な SQLite ファイル構成
    • spotify_clean.sqlite3: アーティスト・アルバム・トラックのほぼ完全な API 複製
    • spotify_clean_audio_features.sqlite3: トラックごとの BPM, key, energy, valence などのオーディオ特徴量 を保存
    • spotify_clean_playlists.sqlite3: 660万件のプレイリスト17億件のトラック項目 を含む
    • spotify_clean_track_files.sqlite3: トラックと実ファイルの対応付け、ファイル状態・SHA256ハッシュ・ライセンサー情報 を含む
  • 追加の JSONL ファイルとして オーディオブック・ポッドキャスト・ショー・エピソードデータ を含む
  • spotify_2025_07_coverart.tar.torrent には アルバムアート画像ファイル を保存

参加と保存への協力要請

  • Anna’s Archive は 寄付とトレントのシーディング参加 を呼びかけ
    • 小規模なシーディングでも全体保存に貢献可能
  • 目標は 自然災害・戦争・予算削減などから人類の音楽遺産を恒久的に保存 すること

追加機能と実験

  • Spotify の全トラックを対象にした 「True Shuffle」機能 の実装が可能
    • SQLite クエリにより 真のランダム再生リスト を生成
  • 今後、関心が十分に集まれば 個別ファイルのダウンロード機能 を追加する可能性に言及

要約

  • Anna’s Archive は Spotify のほぼ全データをバックアップし、世界最大の公開音楽メタデータベース を構築
  • 完全公開型の保存アーカイブ として、誰でもミラー可能
  • データ構造の透明性、技術的精密さ、長期保存性 を兼ね備えたプロジェクト
  • 音楽業界の商用プラットフォーム依存を超え、文化的記録の恒久保存基盤 を整備

7件のコメント

 
tested 2025-12-24

Spotify は怒るでしょうか

 
lsdcnu 2026-01-25

Spotify가 Anna’s Archive 상대 소송에서 승소하여 .org 도메인 폐쇄
最近のニュースを見ると、訴えられたそうですね

 
vndk2234 2025-12-23

義賊と無法者の間、そのどこか……

 
roxie 2025-12-21

著作権は、、、

 
devworld 2025-12-21

これで、これまでSunoのように商用にとどまっていた音楽生成モデルも、open-weight・open-sourceとして学習できるようになりそうですね

 
daumkakao 2025-12-21

すごいですね……

 
GN⁺ 2025-12-21
Hacker Newsの意見
  • 本当に驚くべきことだ
    SpotifyのDRMが突破されて、これほど大規模にダウンロードできるようになっていたとは知らなかった
    一般ユーザーにはあまり役に立たなそうだが、音楽の分類や生成を研究する人たちにとっては大きな機会になり得る
    ただ、どのデータセットで学習したのかを公開するのは難しそうだ
    これがAI研究者たちの要請によるものなのか、それとも単なる保存目的なのか気になる

    • 一般ユーザーに役立たないという点には同意できない
      すでに違法なTV・映画ストリーミングを自動で見つける機器やアプリは普及している
      技術的には十分可能で、家族の中の非専門家でもこういうものを使っている
      ただしAnna’s Archiveチームはイデオロギー的動機で動く集団であって、AI企業のためではない
    • 私はSpotifyを使っていない
      音楽が必要ならytldpでYouTubeから取っていたが、最近はそれもほとんどしない
      音楽よりニュースやバックグラウンド用途でYouTubeをよく使う
      Googleがこれを支配しているのは少し悲しい
    • 実際には音楽ファイルよりメタデータのほうが価値があるかもしれない
    • 「音楽分類研究者のためのもの」だなんて、アーティストを支援しなくてもいいという自己正当化に聞こえる
      Spotifyのような企業を規制してミュージシャンへの正当な報酬を保証するのが本来の方向だ
      こうしたデータ公開はむしろAIのゴミ生成を助長する
    • こういう資料があれば、Lidarrのような音楽自動収集ツールをトラック単位で作りやすくなりそうだ
  • 規模を考えると本当に途方もない
    昔のWhat.CDは「音楽界のアレクサンドリア図書館」と呼ばれていたが、それでも数百万件のトレント規模だった
    ところがAnnaのSpotifyリップには1億8600万件のユニークなレコードが含まれている
    もちろん末尾のほうにはボット音楽のようなものも混じっているだろうが、規模そのものが圧倒的だ

    • What.CDがすごかったのは単なる量ではなく希少性と品質だった
      田舎のバンドの初期EPから、権利関係が不明でストリーミングに載せられない希少な音源まであった
      コミュニティの推薦やレビュー、手作業のプレイリストが生み出す発見の楽しさはアルゴリズムでは代替できない
      おかげで今でも好きなアーティストをたくさん知ることができた
    • What.CDの前にはOiNK’s Pink Palaceがあった
      純粋に音楽を愛するコミュニティで、Trent Reznorも公に称賛していた
      今ではこうした純粋な音楽コミュニティがなくなってしまって残念だ
    • その通りで、What.CDにはCD、ブートレグ、テープなどSpotifyにない音楽が多かった
      Spotifyはストリーミングライセンスのある曲しか含まないので限界がある
    • 私もYouTube Musicでニッチな曲をよく聴くが、「Spotifyにないのが残念だ」というコメントが多い
      完全な音楽アーカイブになるにはまだ先が長い
    • What.CDはアルバム単位でトレントを数えていたが、SpotifyはポッドキャストやAI生成物まで含んでいる
  • 私はこういうプロジェクトは絶対に必要だと思う
    Anna’s Archiveのような場所はInternet Archiveと同じくらい重要だ
    ウェブサイト、ゲーム、本などデジタル遺産の保存が核心だ
    世代が変わるにつれて、過去のウェブの創造性を体験できない人も多い
    今の世代こそ、こうしたものを保存できる機会を持つ世代だと思う

  • 最近は音楽や映画がプラットフォームから一つずつ消えていく時代なので、こうした保存は本当に重要だ
    私にもグレーアウトしたプレイリストが3つある。タイトルすら消えていて、何を聴いていたのかも分からない
    だから永久に持っていたい音楽はCDで買い、ダンスミュージックはそのまま流している

  • こうした作業は本当に重要なこと
    10年前の記事を見るだけでも、外部リンクの大半は404で消えている
    すべてを保存すべきかという疑問はあるが、できるなら保存すべきだ

  • 驚きだ
    Spotifyを大規模にスクレイピングしたという事実そのものが興味深い
    詳細な方法は公開しないだろうが、読めたら面白そうだ

    • 実際それほど難しくはない
      ただし乱用せず、趣味プロジェクトの範囲で楽しむのがよい
      私の音楽サーバーもこういう方式でSpotifyのトラックを再生している
      コードリンク
    • 300TBのデータを匿名で転送した点のほうがさらに驚きだ
    • おそらくこういうツールを使ったのだと思う → spotizerr-spotify
  • 個人的にはこれはあまり気に入らない
    もっと良い音質のソースはすでにあるし、こうした大規模リップは法的リスクを高めるだけだ
    特に電子書籍ライブラリまで危険になるのではと心配している
    告知文でも「音楽はすでに十分保存されている」と書いていたのだから、別プロジェクトとして分けるべきだった

  • ドイツのインターネットプロバイダ(SIM.de/Drillisch)がAnna’s Archiveブロックしていた
    VPNを切ると接続できず、Mullvad VPNをオンにしたときだけ開ける
    ドイツでこんな検閲があるとは知らなかった

    • 私も似た経験がある
      alextud popcorntimeを検索しても、PopcornTimeTV GitHubの結果が出てこない
      Google、Kagi、DuckDuckGo、Bingでも同じだ
      フォークは出るのに元のものは出ないので、検索フィルタリングが疑われる
  • 以前、複数のプラットフォームで同時に削除された音楽があった
    こうしたアーカイブでまた見つけられるのか気になる
    今では現代版ロストメディアが毎日のように生まれている
    一部のパブリッシャーは意図的にすべてのコピーを消そうとしているが、それは精神的におぞましい行為だと思う
    創作物を完全に破壊することは、どんな理由でも正当化できない
    鉄の金庫の中のテープにしか残っていないのなら、それは存在しないのと変わらない

  • 技術的には、トレントをバックエンドにしたストリーミングサーバーを作ることも可能だ
    リクエストが来るたびに必要な部分だけダウンロードする方式だ

    • Spotifyも2014年まではP2Pストリーミングを使っていた
      関連論文リンク
    • 私も最近homelab *arrスタックを構築したが、音楽はまだ価格に対する必要性を感じていない
      Spotifyは今のところ安いので気にしていないが、アーティスト報酬の問題は依然として残っている
      いつかトレントベースのセルフホスティング音楽サーバーが簡単に構築できるようになってほしい
    • 技術的にはやってはいけないが、可能ではある
    • いわばPopcorn Time方式だ