2 ポイント 投稿者 GN⁺ 2025-08-31 | 2件のコメント | WhatsAppで共有
  • このサイトは、Fediverse(Mastodon、Pixelfed など)と Atmosphere(Bluesky、WhiteWind など)において、ユーザーデータがどの程度集中しているかを測定する
  • Herfindahl–Hirschman Index(HHI)Shannon Index を用いて、サーバー間のユーザー分散の程度を分析する
  • HHI は経済学で競争度を測定する指標で、値が低いほど分散が大きく、高いほど独占的集中を意味する
  • Shannon Index はエントロピーに基づく多様性指標で、値が高いほどサーバー間で人口が均等に分布していることを示す
  • このプロジェクトは、データ集中度だけでなく、ネットワーク構造、法的管轄、社会的権力の集中など、分散化を測るさまざまな要素も考慮しており、GitHub でデータとコードを公開している

紹介と主要な概念

  • FediverseAtmosphere プラットフォームでユーザーデータがどの程度集中しているかを、Herfindahl–Hirschman Index(HHI) を用いて測定する
  • HHI は経済学的に競争の程度を評価する代表的な指標で、各サーバー(または PDS)が占めるユーザー比率の二乗をすべて合計して算出する
  • HHI の値が 0 に近いほど、ユーザーが複数のサーバーに均等に分布していることを意味し、10,000 に近いほど、ほとんどのユーザーが 1 つのサーバーに集中した独占状態であることを示唆する
  • 一般に、HHI が 100 未満なら「非常に競争的」、1,500 未満なら「非集中」、2,500 以上なら「高集中」と見なされる

測定方法とデータの定義

  • 測定対象は、Fediverse の**サーバー(インスタンス)**と Atmosphere の **PDS(個人データサーバー)**である
  • Mastodon など、ユーザーが複数のインスタンスに分散しているプラットフォームでは、同じ運営主体が所有するインスタンスを 1 つに合算する
    • 例: mastodon.social と mastodon.online は同じ会社が運営しているため、まとめて統計処理する
    • Bluesky Social PBC が管理するすべての PDS も 1 つとして集計する
  • これにより、1 つの主体がコントロールするユーザー規模を正確に反映できる

中央集権化測定のさまざまな視点

  • ユーザーデータの物理的分布以外にも、さまざまな側面から分散化の度合いを分析できる
    • ネットワーク構造の側面(例: P2P、リレー など
    • アイデンティティ管理の方法
    • 実際のインフラの所有と所在地(地域、管轄権 など)
    • 社会的・組織的な権力の集中(プラットフォーム内での影響力集中現象 など)
  • プラットフォーム内のデータ分布だけでなく、権限と影響力が分散しているかどうかも重視すべきである

プロジェクト参加とオープンソース

  • 測定に活用された全コードとデータセットは GitHub リポジトリ で公開されている
  • 貢献、コメント、新しい測定指標の提案および resiliency(レジリエンス)指標の追加を歓迎する

2件のコメント

 
codject 2025-08-31

「私たちはまだ分散化されているのか?」という言い方も、あえて言えば間違いではありませんが、不自然でぎこちないですね。
「まだ」は主に「否定文」と一緒に使われるので……

「分散化はまだか?」のような訳のほうが、より自然なタイトルではないかと思います。

 
GN⁺ 2025-08-31
Hacker Newsのコメント
  • 今日初めてHerfindahl–Hirschman Indexを知ったので、記憶に残っている変わった事例で試してみたくなった。
    1980年代後半、ある時期にMicrosoftがMacintoshのスプレッドシート市場で100%を超えるシェアを記録したことがあった。
    どうしてそんなことが起きるのかというと、市場シェアの計算方法が、ある期間における各参加者の販売量を市場全体の販売量で割る形だからで、当時LotusのLotus Jazzというスプレッドシートがあまりにも失敗し、返品数が販売数を上回った。
    その結果、Lotusはマイナスのシェアとなり、Microsoft Excelの販売量は市場全体の販売量を上回って、100%を超えるシェアになった。
    正確な数値は覚えていないが、おおよそMicrosoft 102%、Lotus -2%くらいだった。
    この場合、Herfindahl–Hirschman Indexは 1022 + (-2)2 = 10404 + 4 = 10408 になる。
    このような極端なケースでは、HHIが10,000を超えることもある。
    (説明のために「特定期間内」という条件を追加した)

    • 関連記事をオンラインでかなり熱心に探したが見つからなかった(どこかのマイクロフィッシュにはあるかもしれないが……)。
      代わりに面白い逸話を一つ見つけた。
      Lotusの幹部が「最初の月に62,000本出荷し、次の月には64,000本が返品された。海賊版まで返品された」と冗談を言ったそうだ。
      Forbesの関連記事

    • HHIは本当に有用な指標だ。
      正規化されたシェアの二乗和という考え方は、市場シェアだけでなくさまざまな状況によく当てはまる。
      投票でもうまく使われる例がある。

  • 結果が興味深いので驚きではない。
    BlueSkyは一般ユーザーの立場から見ると、Twitterをほぼ代替できるサービスだ。
    Mastadonの総ユーザー数は少ないが、MastadonエコシステムがAT-Protoエコシステムのように中央集権化を避けているように見えるのはよいことだ。
    個人的にはAT protoのサーバー/リレー運用コストは小規模事業者にはかなり負担になるのではと予想しているが、これは両エコシステムの内部構造を深く理解していない状態での推測だ。

    • 自分と数人の友人のためにPDSサーバーを運用するのはそれほど高くない。
      ただ、そのように運用しても大きな利点があるわけではなく、PDSの目的は自分のデータとネットワーク全体のデータをきれいに分離することにある。
      ATProtoでコストがかかるのはRelay(全データを収集/ブロードキャスト)とAppView(すべての投稿、いいねなどをデータベースに保持し、ユーザーリクエストに応答)だ。
      もちろん、小規模ネットワーク、たとえばWhiteWindのように長文を投稿する用途なら、イベント発生量が少ないので無理なく運用できる。
      大半は自前でホスティングする必要がないように設計されている。
      独自のアルゴリズムフィードやフロントエンドを、Blueskyが運営するRelayやAppViewからデータを受け取って実装できる。

    • BlueSkyが成功している理由の一つは、Mastodonのようにユーザーへ「分散化」を前面に押し出していない点だと思う。
      大多数のユーザーは分散化が何かも知らず、知りたいとも思っていない。
      分散化よりも、よい運営や管理機能にもっと努力が必要だと思う。

    • ATProtoはさまざまな背景を持つ企業や投資家に支援されている。
      いずれ彼らも利益を求めるだろうし、それがどのような形で実現されるのかは予測しづらい。

    • 運用コストの議論について言うと、ATProtoは構造自体がかなり異なる。
      Mastodonは複数の個別Twitterのようなサーバー同士が、メールのように情報をやり取りする形なので、小規模な知人向けサーバーは安価だ。
      ただし、この構造ではグローバルネットワークとの接続性が弱く、自分のサーバーがそのまま自分のアイデンティティになる。
      他サーバーのユーザーをフォローすると、自分のサーバーがそのサーバーに情報を要求するが、基本的にネットワーク全体のビューは断片化される。
      ATProtoは最初から中央集権型サービスと競争できるように「分割」の仕方が異なっており、データの出所とアプリケーション集約が分離されている。
      これは少し、全ユーザーが自分のWebサイト(url)にJSONを置き、アプリがそのデータを集約する形に近い。
      その結果、全員が同じビュー(すべてのコメント、いいね、返信が反映される)を持てる。
      Mastodonでは一つの「インスタンス」が独立したTwitter Webアプリであるのに対し、ATProtoには複数の分散プリミティブがある。

      • PDSはアプリ非依存のデータストアで、直接の運用コストは非常に安い(ユーザーあたり月1ドル未満の水準)。オープンソース実装もあり、Gitホスティングに近い。
      • AppViewは実際のアプリケーションバックエンドの役割を果たす。ネットワーク全体のデータをingestするBluesky AppViewを運営するには月300ドルほどかかる。
        Mastodon方式のようにネットワークの一部だけを見るAppViewははるかに安いが、魅力に欠けるためほとんど使われない。
      • Relayは複数のPDSとAppViewをつなぐデータブロードキャスト最適化用で、Sync 1.1以降は価格が大きく下がり、月30ドル程度だ。
        要するに、PDSとRelayの運用は安価で、AppView全体を運用することにコストがかかるが、Mastodonにはそれに相当する概念自体がない。
        Mastodonの断片化した体験とATProtoの一貫した体験を、単純に価格だけで比較するのは無理がある。
        部分的なAppViewをMastodonのように回すのは安いが、実質的な魅力が乏しい。
        また、Mastodonはon-demand fetchingを導入して一部を緩和しようとしているが、pullベースの分散システムには限界がある。
        関連質問
  • 結局、分散システムでも自然に中央集権化の現象が見られる。
    Gitも分散化の試みだったが、実際にはGitHubやGitLabなど特定のプラットフォームに集中している。
    BitTorrentも分散型だが、トラッカーサイトが自然な中心として機能する。
    BitcoinもやはりCoinbaseなど一部のサービスが中心的な役割を担うようになる。
    メール(SMTP)もスパム問題のせいで、事実上の中央集権化が起きている。

    • メール(SMTP)の場合、「大手だけがスパムフィルタリングできる」というのは事実ではない。
      昔から分散型のスパムフィルタリングリストもあるし、大手事業者にスパムフィルタリングで特別な優位があるわけでもない。
      ただし大手事業者は小さなメールサーバーをスパム扱いしがちで、実際に競争相手を抑え込もうという意図がある可能性もある。
      しかし、メールサーバーに逆引きDNSとDKIMを正しく設定していても必ずスパム扱いされるわけではないし、大手同士でも互いをスパム扱いすることがあるので、絶対的な話ではない。

    • トラッカーサイトは多数存在し、消えても別のトラッカーがすぐに現れる。
      したがって、エコシステムを支配する単一プレイヤーがいるわけではなく、依然として分散型だと言える。

    • Coinbaseのようなサービスは誰でも作れる。
      実際、さまざまな類似サイトが存在し、今ではPayPalも使える。
      一つのサービスだけに依存する必要もなく、たとえばPayPalでビットコインを買ってCoinbaseで売ることもできる。
      この状況を中央集権化と定義するのは奇妙だと思う。

    • Git自体は分散化を目標にしたツールではない、という点もある。

    • 挙げられた例はすべて、結局のところ中央集権的な要素を持っている。

  • フェディ(分散ソーシャルのエコシステム)のほうがより分散してはいるが、一貫性の面では弱い。
    これがフェディに入ったユーザーが最も不満を感じる点だ。
    個人的には大きな前進だと思うし問題ないと思うが、現実的な期待値を持つことのほうが重要だ。

    • 一貫性(consistency)とは正確にはどういう意味なのか気になる(フェディバースを使ったことがないので文脈が分からない)。
  • IRCやNNTPのような昔の連合型システムは、HHIのような方法でどう測定できるのだろうか。
    過去のシステムがこうした指標でどんな結果になるのか気になる。

    • freenodeの所有者が変わったとき、ほぼ1週間で皆が移行した例がある。
      このような移動性が非常に簡単で実際に可能だった点は興味深い。

    • 小規模でセミプライベートな環境では、特にWebフロントエンドによるscroll-backが提供されるIRCは今でも素晴らしい。
      ただし規模が大きくなりすぎると、政治や文化の違いによって崩れ始める。
      同じ傾向の人たちが集まれば非常にうまく機能するが、完全公開になると意見の違い、荒らし、AIボットの問題などが生じる。
      Webインターフェースをセミプライベートに保ち、簡単な認証やリファラ遮断などを使えば、セキュリティ上の脅威、混乱、第三者ボットを防げる。
      NNTPも悪くないが、バイナリグループ全体を個別にミラーするのは簡単ではなく、ISPももはや提供していないため、大半は商用ニュースフィードや無料のUsenetプロバイダを利用している。
      一部の無料プロバイダとピアリングして検閲リスクを減らすのが望ましい。
      IRC、NNTPのどちらも、個人が自分専用のプライベートまたはセミプライベートなリンクドサーバーを作ることができる。
      関連情報

    • 数学的に計算するのは簡単で、関連するネットワーク統計は netsplit.de で確認できる。

  • NostrがこうしたHHI分布に加わったら面白そうだ。
    Nostrではユーザーベースの集中化がfediモデルの主な弱点として挙げられるが、Nostrではユーザーのアイデンティティが単一のリレーに存在しないため、当てはめ方が少し奇妙になりそうだ。

    • ほとんどのNostrクライアントは複数のリレーにデータを送信し、アカウント自体がユーザー端末の公開鍵ペアだからだ。
  • こうした中央集権化/分散化の問題は、結局いつもマーケティングとUXの問題なのではないかと思う。

  • ThreadsがFediverseに含まれるなら、面白い変化がありそうだ。

    • Threadsも独自により強力なプライバシーコントロールをopt-in形式で提供しているが、結局Fediverseでは「ユーザーデータを所有するサーバー」の一つと見なせると思う。
  • うまくバランスを保つことが重要だ。
    分散化しすぎると誰も見つけられず、中央集権化しすぎると検閲によって自由が失われる。

    • 個人的には、分散環境での発見可能性(discoverability)が本当に不可能なのか気になる。
      もしインデックス化に十分な資源(金銭や人員など)を投入すれば、その中間点はまるで振り子を逆さに立てるように不安定ながら維持できるのかもしれない。
      ブログ黄金期のように、検索エンジン(中央)とブログ/フォーラム(個別)が調和していた時代もあったが、時間がたつにつれてスパムと大規模プラットフォームへの統合で弱まっていった。

    • 「発見」機能には必ず中央集権的な要素が必要だという前提そのものを指摘したい。

    • 経済学では、HHIが100以下なら「競争が非常に激しい」、1500以下なら「非集中」、2500以上なら「高集中」と見なす。
      Fediverseはほとんど左端に近いのに、それでもすでに690ある。
      完全な中央集権(上に一直線に伸びた状態)は5000だ。
      実際には非線形なスケールを線形に見せている。

    • 人為的な選択肢がほしい。
      中央集権、分散化、ハイブリッドなどのオプションを、ユーザーが自分で選べる形であってほしい。

    • 「分散しすぎている」という批判があるなら、非営利団体が公開ホストの自発的登録によるインデックスを作って、すべての分散コンテンツを見つけられるようにすることもできる。
      そうすれば検索の問題も解決できるだろう。
      結局FacebookがThreadsでそうしたデータを取り込もうとするかもしれない。

  • HHIという指標自体が新鮮で分かりやすい。
    0〜100にスケールダウン(100で割る)すると、数字がもっと直感的に見える気がする。
    また、0が中央集権、100が完全分散になるように反転させることも検討できそうだ。
    ホームページのタイトルからは、分散化に向けた「進捗」を測っているような印象があるので、そのほうが直感的だと思う。

    • ただし、0〜100に正規化しない理由は、人がこの数値を線形的に受け取らないようにするためかもしれない。
      2500という数値を見るとその意味を考えたくなるが、25/100と表示されると「高集中」という印象が薄れるからだ。