5 ポイント 投稿者 GN⁺ 10 일 전 | 7件のコメント | WhatsAppで共有
  • GitHubのスター売買エコシステムが、専用Webサイト、フリーランスプラットフォーム、交換ネットワーク、非公開チャネルにまたがって形成されており、2019年から2024年までの分析で約600万件の疑わしい偽スターが1万8617のリポジトリと約30万1000のアカウントに分散していたことが特定された
  • 2024年に入って偽スターキャンペーンが急増し、スター50件以上のリポジトリの16.66%が関連していたと集計されており、購入されたスターがGitHub Trendingへの掲載やプラットフォームの発見アルゴリズムの迂回に実際に使われていた
  • 偽スター販売は、アカウント品質と配信方式に応じてスター1件あたり0.03ドルから0.90ドル程度で取引され、コントリビューショングラフ操作ツール、事前作成済みプロフィール販売、補充保証、購入APIまで含むインフラへと拡大している
  • GitHubのスター数は投資誘致の指標と直接結びついており、シードおよびSeries A段階の基準値として活用され、少額のスター購入が水増しされたtraction認識と資金調達につながる自己強化ループを形成している
  • フォーク比スター比率とウォッチャー比スター比率が不正操作検出の一次フィルターとして提示されており、GitHubのポリシー上の禁止とFTC規則の施行にもかかわらず、アカウント取り締まりはリポジトリ削除より低調で、構造的対応は依然として実装されていない

600万件の偽スター

  • Carnegie Mellon University、North Carolina State University、Socketの研究チームによるStarScout分析では、2019年から2024年までのGitHubメタデータ20TB、イベント67億件、スター3億2600万件を調査した結果、約600万件の疑わしい偽スターが1万8617のリポジトリと約30万1000のアカウントに分散していたことが特定された
  • 2024年には偽スターキャンペーンが急増し、7月時点で**スター50件以上のリポジトリの16.66%**が関連していたと集計された
    • 2022年以前はほぼ0に近い水準
  • 検出精度の検証でも、StarScoutが表示したリポジトリの90.42%、アカウントの57.07%が2025年1月時点で削除されていたことが確認された
    • GitHubもこれを異常活動と認識していたことを裏づける数値
  • 偽スターの恩恵を受けたリポジトリのうち、AIおよびLLM関連リポジトリが非悪性カテゴリで最大規模を示し、絶対数基準で17万7000件の偽スターが集計された
    • 学術論文リポジトリやLLM関連スタートアップ製品が多く含まれると引用されている
  • 偽スターキャンペーンが検出されたリポジトリ78件がGitHub Trendingに登場しており、購入されたスターがプラットフォームの発見アルゴリズムの迂回に実際に使われていた
  • 2023年3月のDagster調査では、エンジニアたちが実際に2つの販売業者からスターを購入し、この現象を検証した
    • ドイツ登録企業GitHub24はスター1件あたり0.85ユーロを請求し、100件のスターが1か月後もすべて維持された
    • Baddhi Shopは1000件のスターを64ドルで販売したが、維持率は75%程度と提示された

マーケットプレイス

  • GitHubスター販売エコシステムは、専用Webサイト、フリーランスプラットフォーム、交換ネットワーク、非公開チャネルにまたがって形成されており、少なくとも12以上のアクティブなWebサイトが直接GitHubスターを販売している
    • SocialPlug.io、Buy.fans、Boost-Like.store、GitHubPromoter.com、Followdeh.com、Vurike.com などが例として列挙されている
  • 価格帯はアカウント品質と配信方式によって区分される
    • 低価格帯はスター1件あたり0.03ドルから0.10ドル、数日以内に配信、新規・空プロフィールを使用
    • 中価格帯は0.20ドルから0.50ドル、1〜2週間で配信、一部の活動履歴を含む
    • プレミアム帯は0.80ドルから0.90ドル、段階的で自然な配信をうたい、数年物のアカウントとリポジトリ・貢献履歴を含む
  • Fiverrでも24件のアクティブなギグがGitHubプロモーションを販売しており、基本スターとフォークは5ドル、"organic promotion"は25ドル以上に設定されている
    • プラットフォームのフィルターを避けるため、婉曲または迂回的な表現を使用
  • GithubStarMate.com、SafeStarExchange.com のようなスター交換プラットフォームも運営されており、クレジットベースの相互スター方式を提供している
  • インフラはスター販売にとどまらず、GitHubのコントリビューショングラフ操作にも拡張している
    • fake-git-history、commit-bot、Commiter など少なくとも7つのオープンソースツールが、GitHubのコントリビューション履歴偽装の目的で存在する
    • 5年分のコミット履歴とArctic Code Vault Contributorバッジを持つ事前作成済みGitHubプロフィールが、Telegramで約5000ドルで販売されている
  • 一部の販売業者は補充保証まで提供している
    • Followdehは30日保証を宣伝
    • プレミアムサービスはGitHubの検知を通過する"non-drop"スターを約束
    • SocialPlugは5万3000人以上の顧客に310万件のスターを届けたと主張し、購入APIも提供している
  • Tsinghua UniversityのACSAC 2020研究では、中国のQQ・WeChatプロモーショングループの商業構造が文書化された
    • 1020人以上のメンバーが1日あたり約20のリポジトリを処理
    • プロモーターの利益は年間340万ドルから440万ドルと推定されている

独自分析:偽スターゲイザーの特徴

  • GitHub APIベースの分析ツールを構築して20件のリポジトリを調査し、StarScoutで表示されたリポジトリ、Runa Capital ROSS Indexの高成長AIリポジトリ、オーガニックなベースラインのリポジトリをあわせて比較した
  • 各リポジトリごとにスターゲイザーのプロフィールを150件ずつサンプリングし、アカウント年齢、公開リポジトリ数、フォロワー数、自己紹介の有無を測定した
  • 操作の痕跡はいくつかの共通指標で繰り返し現れた
    • アカウントが極端に新しくなくても、中身の空っぽなアカウントの比率が高い
    • フォーク対スター比率とウォッチャー対スター比率が、オーガニックなリポジトリより大幅に低い
  • オーガニックなベースライン

    • Flask、LangChain、AutoGPTの中央値アカウント年齢はそれぞれ4801日、2967日、4022日で、スターゲイザーの多くが長年GitHubを使ってきた開発者集団であることが示された
    • 公開リポジトリがまったくない比率は5.3%、5.9%、2.0%程度で、フォロワー0人の比率も10.0%、11.8%、5.9%と低い方だった
    • Flaskのゴーストアカウント比率は1.3%、Flask・LangChain・AutoGPTのsuspicious accounts比率は0.0%と示された
    • フォーク対スター比率はFlask 0.235、LangChain 0.155、AutoGPT 0.090で、コードの実際の利用や改変が一定程度伴っている
    • ウォッチャー対スター比率はFlask 0.029、LangChain 0.006、AutoGPT 0.005だった
    • オーガニックなリポジトリのスターゲイザーは数年にわたって活動し、自身のプロジェクトを持ち、他のユーザーをフォローするという開発者らしい特性を備えている
    • リポジトリ0件・フォロワー0人・自己紹介なしのゴーストアカウントは、健全なプロジェクトではおよそ1%水準と示された
  • 操作されたブロックチェーン系リポジトリ

    • Union Labs、Shardeum、FreeDomain、Anomaの中央値アカウント年齢は997日から1180日の範囲で、単純な新規アカウントフィルターは通過する水準だった
    • しかしアカウントの中身は空で、公開リポジトリ0件の比率が28.0%から38.0%、フォロワー0人の比率が52.0%から81.3%、ゴーストアカウント比率が19.3%から28.7%と高く現れた
    • フォーク対スター比率はUnion Labs 0.052、Shardeum 0.022、FreeDomain 0.017、Anoma 0.121と示された
    • ウォッチャー対スター比率もFreeDomain 0.001など非常に低い
    • こうしたアカウントは、古いアカウントを購入したか、農場型に確保してスタ―キャンペーンに投入したパターンと解釈される
    • フォーク対スター比率が最も強いシグナルとして示された
      • Flaskはスター1000件あたりフォーク235件
      • Shardeumは22件
      • FreeDomainは17件
    • ウォッチャー対スター比率も同じ方向を示しており、FreeDomainの0.001はスター1000人あたり実際に更新を見守るユーザーが1人程度であることを意味する
  • FreeDomain

    • 15万7000スターを持つが、ウォッチャーは168人、フォークは2676件と示された
    • ウォッチャー対スター比率はFlaskより26倍低い
    • サンプリングしたスターゲイザーのうち81.3%がフォロワー0人で、GitHub内で目に見える活動基盤がほとんどないアカウント構成が明らかになった
  • Union Labs

    • 2025年第2四半期のRuna Capital ROSS Index 1位に選ばれ、スター増加率54.2倍と7万4300スターを記録した
    • 独自分析では、公開リポジトリ0件のアカウントが32.7%、フォロワー0人のアカウントが52%、フォーク対スター比率が0.052であることが確認された
    • StarScout分析では47.4%が疑わしい偽スターと表示された
    • VCが参考にする影響力の大きい投資発掘レポートの最上位に、スターのほぼ半分が人為的である可能性のあるプロジェクトが載る構図が明らかになった
  • AI分野

    • RagaAI、openai-fm、Langflow、hermes-agentを比較した結果、AIリポジトリ内部でも指標のばらつきが大きく現れた
    • RagaAI-Catalystはフォロワー0人のアカウントが76.2%、ゴーストアカウントが28.0%で、ブロックチェーン系パターンとほぼ同じ数値を記録した
    • openai-fmはデータセット全体で最も極端な事例として示された
      • suspicious accounts 66.0%
      • ゴーストアカウント 36.0%
      • 中央値アカウント年齢 116日
      • スターゲイザーの3分の2が1年未満で、GitHubでの活動がほとんどない
      • StarScoutでは、この事例はOpenAI自体ではなくサードパーティーのボットである可能性が高いと述べられている
    • LangflowはStarScoutで47.9%偽と表示されたが、プロフィールサンプル分析では中央値年齢2859日と低いゴースト比率を示し、比較的クリーンな数値が出た
      • StarScoutのスキャン後にアカウント品質が改善した可能性が指摘された
      • ただしフォーク対スター比率0.060はFlaskのおよそ4分の1水準で、依然として低い
    • NousResearchのhermes-agentは比較的オーガニックなリポジトリに分類された
      • 中央値アカウント年齢 8年
      • ゴーストアカウント 6%
      • フォーク対スター比率 0.133
      • Redditでのastroturfing批判とは別に、スターゲイザーの多くは実際の開発者と分析された
      • 暗号資産に隣接するユーザー層のためフォロワー0人比率はやや高いが、基本的な参加パターンは正当なものと評価された

スターが資金になる経路

  • GitHubスター数とスタートアップの資金調達の結びつきは推測ではなく、投資家自身が文書化した関係として示されている
  • Redpoint VenturesのJordan Segallが開発者ツール企業80社を分析した結果、シード投資時のスター中央値は2850件Series Aは4980件と集計された
    • 多くのVCが急成長するGitHubプロジェクトを見つけるために社内スクレイピングプログラムを運用しており、最もよく見る指標がスターだと直接述べている
  • この数値はスタートアップに事実上の購入目標を与える
    • 格安スター基準では85ドルから285ドルでシード中央値2850件を操作可能
    • 990ドルから4500ドルでSeries Aの水準に接近可能
    • 一般的なシードラウンド100万ドルから1000万ドルを基準にすると、3500倍から11万7000倍のROIレンジが計算される
  • Runa Capitalは四半期ごとにROSS Indexを発行し、GitHubスター成長率に基づいて上位20件のオープンソーススタートアップをランキングしている
    • TechCrunch基準で投資を受けたスタートアップの68%がシード段階で資金を調達しており、追跡されたラウンド総額は1億6900万ドル
  • GitHubもGitHub Fundを通じてM12と協力し、毎年1000万ドルを投資して、プラットフォームのtractionを一部基準としてプレシード・シード段階のオープンソース企業8〜10社に投資している
  • スターから資金調達につながった事例が複数列挙される
    • Lovable: 5万超のスター、750万ドルのプレシード、社員45人規模で18億ドル企業価値の2億ドルSeries A
    • Pangolin**: 2025年1月にスター1000件、Y Combinator合格、2025年8月までに**470万ドルのシード

    • Browser-use**: 3か月で5万スター、Y Combinator W25、**1700万ドルのシード

      • LangChain: シード段階でBenchmarkの1000万ドル投資
      • DagsterのFraser Marlowも、資金調達直前にGitHubスターにかなりの時間を割いて気にしていたと直接述べている
      • Organization Scienceの論文では、GitHubでの活動実績とスタートアップの資金調達結果の相関関係が統計的に示されている
      • GitHubで活発なスタートアップは、投資ラウンドを獲得した可能性が15ポイント高い
      • 結果として、VCのスター追跡 → スタートアップの操作 → 水増しされたtraction認識 → さらに多くのVCの採用 → さらに多くの操作という自己強化ループが形成される
      • Redpointの公開ベンチマークがスタートアップに正確な目標数値を与える構造が明らかになった

フォーク対スター比率:単純な検出ヒューリスティック

  • 独自分析では、フォーク対スター比率が潜在的な操作を見分けるうえで最も強力な単純指標として現れた
  • 理屈は単純だ
    • スターはコストなしで押せて、実質的なコミットメントを意味しない
    • フォークはコードをダウンロードして利用または修正したことを意味する
  • カテゴリ別の平均フォーク対スター比率は次のとおり
    • オーガニックなベースラインの3リポジトリは 0.160
    • AIツールの5リポジトリは 0.124
    • 操作が疑われるブロックチェーンクラスタの4リポジトリは 0.053
    • 極端な事例の2リポジトリは 0.020
  • スターが1万件以上で、かつフォーク対スター比率が0.05未満のリポジトリは綿密なレビューが必要だという基準が示される
  • ウォッチャー対スター比率は、より直感的な補助シグナルとして示される
    • オーガニックなプロジェクトは平均 0.005から0.030
    • FreeDomainは 0.001
  • この比率は完全な判定基準ではなく、教育用リポジトリやキュレーションリストはもともとフォーク比率が低い場合がある
  • それでも、生のスター数だけでは見逃される最も深刻な事例を一次フィルタとして捉えるのに有効だと評価される

GitHub外での偽の人気

  • 人気指標が信頼に影響するあらゆるプラットフォームへ、同じ現象が広がっている
  • npmダウンロード数は非常に簡単に水増しできる
    • Andy Richardsonは単一のAWS Lambda関数の無料枠だけを使って、is-introspection-queryパッケージを週あたりほぼ100万ダウンロードまで押し上げた
    • urqlmobxのような正常なパッケージより多い数値だったが、実際のユーザーは0人とされた
    • CMUの研究では、偽スターキャンペーンがあったリポジトリのうちパッケージレジストリに現れた比率は1.23%にすぎなかったが、その738個のパッケージのうち70.46%が依存プロジェクト0件だった
  • VS Code Marketplace拡張機能も同じ脆弱性を示す
    • 研究チームは48時間以内に偽の拡張機能インストール1000回超を実証した
    • AquaSecは、既知の悪性依存関係を持つ拡張機能1283件、総インストール数2億2900万回を発見した
  • X/Twitterプロモーションは人工的なGitHubバイラルを増幅する
    • engagement podと呼ばれる非公開グループで、メンバー同士がいいね、再投稿、コメントを交換する
    • Growth Terminalはこれを製品機能として販売している
    • NBC NewsとClemson Universityの研究チームは、LLM生成コンテンツで13万回超を投稿した686件のXアカウントネットワークを確認した
    • 一部の投稿には、使用モデルの痕跡である「Dolphin here!」のような表現が含まれていた
  • Higgsfield AIの事例では、プラットフォーム横断のastroturfingが大規模に文書化された
    • 60超のサブレディットにまたがる100件超のスパム投稿
    • コンテンツ制作者に宣伝の見返りを提案するテンプレートDMの大量送信が組み合わされていた

ほとんど言及されない法的エクスポージャー

  • FTC Consumer Review Ruleが2024年10月21日から施行され、商業目的のボット・偽アカウントに基づく「偽のソーシャルメディア影響指標」の売買を明示的に禁止する
  • 違反時の制裁は1件あたり最大5万3088ドルとされる
  • FTCは2025年12月に10社へ最初の警告書を送付しており、商用製品の宣伝向けGitHubスター購入はこの枠組みに当てはまると述べられている
  • SECの先例も、より直接的な事例として示される
    • HeadSpinのCEOは、指標を水増しして投資家から8000万ドルを引き出した容疑で通信詐欺と証券詐欺により起訴された
    • ComplYantの創業者は、月間売上25万ドルと主張したが実際は250ドルだった容疑で起訴に直面している
  • SECは、スタートアップの資金調達担当者が「fake it until you make it」の文化を投資家欺瞞に使うことはできないというメッセージを示している
  • スタートアップが資金調達の過程で偽のGitHubスターによりトラクションを水増しし、投資家がその指標を根拠に資本を投じたなら、電子通信を用いた重要事実の虚偽表示という通信詐欺の枠組みが適用され得るとつなげている
  • まだ偽のGitHubスターだけで起訴された事例はないが、CMU研究の大規模な実証とFTC規則の明示的禁止を踏まえると、時間の問題かもしれないとの見方が示される

GitHubの対応

  • GitHubのAcceptable Use Policiesは、真正でない相互作用、偽アカウントと自動化された真正でない活動、自動スター・フォローのようなランキング悪用、真正でない活動拡散のための二次市場参加を明示的に禁じている
  • 暗号資産エアドロップ、トークン、クレジット、ギフトなどの報酬によって誘導されたスターも、ポリシー上の禁止対象に含まれる
  • 執行は反応的で非対称的だと評価される
    • StarScoutが表示したリポジトリは90.42%削除されたが、そのスターを提供したアカウントは57.07%しか削除されていない
    • 将来のキャンペーンに使えるアカウント基盤のかなりの部分が残っている
  • Dagsterの調査でも、偽スターのプロフィールは48時間以内に削除されたが、公の告発後に対応したものとされ、事前検知の事例ではない
  • GitHubは、スター操作の検出方法や執行統計を扱うエンジニアリングブログ記事を公開したことがなく、個別の透明性レポートもない
  • GitHubのセキュリティ運用担当バイスプレジデントはWiredに対し、ポリシーに基づいてアカウントを無効化したとだけ答え、追加説明は拒否した
    • ただしこの発言は、vanity metric操作ではなくStargazers Ghost Networkマルウェア作戦に対するコメントだと明記されている
  • CMUの研究チームは、生のスター数の代わりにネットワーク中心性ベースの重み付き人気指標の導入を勧告している
    • 偽スター経済を構造的に弱体化できる変更として提示される
  • GitHubはこの勧告をまだ実装していない

VCが代わりに見るべき指標

  • Bessemer Venture Partnersはスターをvanity metricsと呼び、代わりに月間ユニーク貢献者活動を追跡している
    • イシュー作成、コメント、PR、コミットの実行者をすべて含む
    • 上位1万件のプロジェクトのうち、月間貢献者250人超に達したケースは5%未満
    • それを6カ月連続で維持したケースは2%にすぎない
  • StateShiftのJono Baconは、実際の採用と相関する5つの指標を推奨している
    • パッケージダウンロード数
    • 実ユーザーの本番エッジケースが表れるイシューの質
    • 2回目のPRまでの時間で測る貢献者維持率
    • コミュニティ議論の深さ
    • 利用テレメトリ
  • 独自分析で明らかになったフォーク対スター比率は、最も単純な一次フィルタとして提示される
    • 健全なプロジェクトは、スター1000件あたりおおよそフォーク100件から200件
    • スターの絶対値が高いのに、スター1000件あたりフォークが50件未満なら追加点検が必要
  • 引用文としては、「スター数はごまかせても、誰かの週末を救ったバグ修正はごまかせない」という一文が示される

構造的な問題

  • 偽スター経済が自己強化される理由として、3つのダイナミクスが提示される
  • インセンティブループ

    • VCがスターをソーシングのシグナルとして利用
    • スタートアップがスターを操作
    • VCが水増しされた traction を確認
    • さらに多くのVCがスター追跡を導入
    • さらに多くのスタートアップが操作に参入する循環構造が形成
    • Redpointの公開ベンチマーク シード 2850件、Series A 4980件 が事実上の購入数量表の役割を果たす
  • AI分野の脆弱性

    • 過度な過熱、製品品質よりトークン価格を報いる暗号資産隣接の資金構造、操作されたペルソナが入り混じるX/Twitterレビュワーのエコシステムが結びつき、作られた信頼に有利な環境を形成
    • 独自分析でも、操作シグナルが最悪のリポジトリの多くがブロックチェーンおよび暗号資産隣接のAIプロジェクトであることが確認された
  • GitHubの執行の非対称性

    • リポジトリを削除しながらも偽アカウントの57%を残す構造が、偽スター経済の労働力を温存
    • 繰り返し違反への抑止力が弱い
    • GitHubが加重人気指標、アカウントレベルの評判スコア、透明な執行報告のような構造的変化を導入しない限り、スター数と実際の開発者採用の間の乖離は拡大し続けると整理される
    • 偽スター経済は、50ドルの問題5000万ドルの結果を生む構造だと要約される
    • プラットフォーム、投資家、規制当局が追いつくまで、市場はその50ドルを払い続けることになる、という一文で締めくくられる

7件のコメント

 
pdpatgtpmdt2843 9 일 전

oh-my-claudecode や claw-code の詐欺師ども(笑)

 
savvykang 9 일 전

SKTはかなり先進的な会社だったんですね

 
guarder 8 일 전

私もこの件を思い出しました。もう7年前なんですね。

 
ndrgrd 10 일 전

個人的には、スターは最低限の目安として見るべきであって、それ自体を判断基準にはしません。
スターが100個にも満たないプロジェクトは少し慎重に見るべきだと思いますが、スターが5万個を超えているからといって無条件に信頼するわけでもありません。

 
shakespeares 9 일 전

正しい姿勢ですね

 
edunga1 9 일 전

スターゲイザーをベースに見るのはいいですね。
最近は1万、10万個あっても不安なリポジトリが多いので、GitHubが迅速に対応してくれるといいですね。

 
GN⁺ 10 일 전
Hacker Newsの意見
  • VCがGitHub starsのような想像上のインターネット点数で実際の投資判断を下すなんて、どうにも理解できない。NFLチームがクォーターバックをパス成功率ではなくInstagramのフォロワー数で選ぶようなものに見える。Cleveland Brownsの成績を見ても、冗談のネタにはなっても真面目な優勝戦略とは思えない。これはVCの怠慢なのか、ZIRPのような環境で資金があまりに余っていた副作用なのか、と考えてしまう。自分の金をstars基準で運用すると言われたら、笑ったあとすぐ真顔になりそうだ
  • 私はライブラリを選ぶときstarsをほとんど見たことがなく、なぜ見るのかもよく分からない。私が見るのは直近のコミット時期、プロジェクトの年齢、イシューがどう処理されているか、そして一部のコード品質だ。starsは結局そうした実質的な指標の間接的な結果か、ただの詐欺でしかないので、自分で直接見ない限り意味がないと思う。昔からstarsは「あとで見返すブックマーク」程度にしか考えておらず、それが品質指標に化けていたのを見て驚いた。FTCにはこうした慣行を厳しく取り締まってほしい。コミット履歴もざっと見れば変更の種類やcadenceが見えて、かなり役に立つ
    • 人は結局きらびやかな飾りに引き寄せられるという点で、Napoleonの言葉のように栄光や勲章、報酬が人を動かすという比喩はぴったりだと思う
    • 自分ではstarsを見ないとしても、自分が使う依存関係の作者がその数字に影響されるなら、やはり問題だと思う
  • こういう記事を見ると、特定の問題を少し調整すれば解決するように感じられるが、私にはシステム全体がもっと深く壊れているように見える。核心はシグナルそのものが商品化されたことだ。SaaSを作ると、金を払えば「今年のTopアプリ」リストに載せると言ってくる記者が寄ってきて、ソーシャルのフォロワーを増やすという業者が現れ、ニッチな専門家を見つけるというリクルーターは結局LinkedInのスクレイピングとスパムを回しているだけだ。採用では、東アジアの面接ファームに座ってWashington D.C.のIPから接続し、ヨーロッパ風の名前を使い、合成背景を有効にし、求人票にある技術を全部知っているふりをする候補者まで実際に見た。重要な指標が生まれると、それを操作する生態系がすぐにできて、操作そのものが単なる事業運営の一部になってしまうと感じる
    • 結局のところ、全部もっと金を稼ぐためのことに収束すると思う
    • 最後は会社が虚栄の指標を買うかどうかの問題だと思う。うちも最近、リポジトリでのAIボット活動をもっと難しくしようとしていて、この記事のように比較的簡単な標的だけを探すスタートアップ側へボットが流れてくれることを期待している
  • 私は小さなサイトを運営していて、既存の非公式標準をもう少し明確に定義し、その標準に従うソフトウェアやライブラリの一覧をホームページに載せている。最初はほとんど何でも受け入れていたが、一覧が長くなるにつれてnotability基準が必要だと感じた。数日しかたっておらず、ほぼ確実にAI生成で、品質もいまひとつなライブラリを断る際に、「starsが0個」である点も懸念として挙げたところ、作者が何個あればいいのかと攻撃的に詰め寄ってきた。私は答えなかった。starsは考慮要素の一つにすぎず、すべてではないからだ。必要なのは実際のユーザーと本当の認知度だ。その後も別の開発者たちが会話に割り込んできて、曖昧な基準ではなくstarのカットオフを決めろと言ってきたが、わざと決めていない。数字が目標になった瞬間、その指標は壊れるからだ。ページを無限に増やしたいわけでもないし、X個以上starsがあれば載せるという基準にすれば、マルウェアまで載ってしまいかねない。何より、自分のページに誰を載せるかは自分が決めることなのだから、無礼な振る舞いはやめてほしい
  • VCがGitHubの人気をtractionの証拠のように扱う構図を見ると、大きな資本がまたしてもすべてを壊しているという気がする。ここでもGoodhart's lawがそのまま当てはまると思う。私がリポジトリの品質を素早く見るときは、メンテナンス状況、プロジェクトの年齢、APIの洗練さ、コミット履歴を見る。記事で触れられていたように、月間ユニーク貢献者の活動、パッケージのダウンロード数、実ユーザーらしいイシューの質、2本目のPRまでの継続率、コミュニティ議論の深さ、利用状況のtelemetryのような指標のほうが、実利用には近いと感じる
    • 私は結局コードをそのまま読む。それがいちばん直接的だと思う
  • 多くの人はstarsを「信頼できて、品質が高く、多くの人に見られているソフトウェア」の安くて速い代理指標として期待しているようだ。しかし私の考えでは、proxyとして完全に失敗している。astroturfingを除いても、starsは人気や品質を保証しない。基本的なシステムライブラリの中にはstarsが少ないものも多いはずだ。コードそのものを読めるのに、わざわざstarsに依存するのは無意味に感じる。だから私はstarsを飛ばしてリポジトリをざっと見て、アーキテクチャと実装を直接評価する習慣をつけているし、そうして見るとstarsが少ない代替のほうが良いと感じたことがかなりある
    • 代替が3つあって、それぞれ10万LOCなら、コードを読めというのは現実的には簡単ではないと思う。結局、代理指標は必要だ。starsは信頼できないのでいまひとつだが、推薦やreferralのほうがまだ良い。ただ、自分のネットワークに知見がない領域では、starsのような弱いproxyでも使ってしまう現実はある
    • 昔はイシューページが実利用の痕跡を見るのにかなり良かった。人々がどんな問題に直面しているか分かったからだ。今でもたまに有効だが、agentのゴミが増えすぎて、以前ほどではない
  • GitHubがraw starsの代わりにPageRankのようなグラフベースのスコアを使ったらどうだろうと思う。重要なリポジトリを運営しているユーザーがstarsやforkをしているほど、そのリポジトリのスコアを高くする方式だ。計算コストは増えるだろうが、私の見落としがないなら、今よりはるかに信頼できる結果になる気がする
    • そのアプローチはより良い結果に近そうではある。ただ、すべてのユーザーを行列に入れる構造なら、依然としてゲーム可能だと思う。むしろtrusted peersや友人の友人のような限定集合を使うか、単純ないいねベースではなく事後的なシグナルを使うほうがよさそうだ
  • 本当に気になるのは、VCがなぜstarシステムを信頼できるものと見なすのかという点だ。starsを押したユーザーはすぐにそのプロジェクトを忘れることが多いので、メンテされていない古いプロジェクトでもstarsだけ多いことがある。最善ではなくても、それよりはイシューがどれだけ生きているか、開かれ閉じられているか、自動クローズではないか、応答速度はどうかを見るほうがまだましだと思う。私のプロジェクトはstarsが200個あるが、単なるバージョン更新ではない意味のあるアップデートを継続するのは本当に大変だ
    • starsは目標になってしまった指標なので、もはや良い尺度ではなくなった典型例だと思う。そしてイシュー活動のような他の指標も、LLM時代には開いて閉じて返信する形で簡単に操作できると感じる
    • VCが数千starsを求めるといった話は、大きな構図すぎるかもしれない。実際には、誰かが20ドル払って自分のプロジェクトをそれらしく見せ、履歴書や見栄のために使ったり、Redditでのクリックを増やしたり、他のオープンソースより目立とうとしたりするケースのほうが多そうだ。もし誰かがstars 8千や1万だけを見て、プロジェクトや収益可能性も見ずに投資するなら、本当に無知な投資家か、毎年夏に学生プロジェクトを1つ選ぶ程度のレベルだと思う。偽アカウントは私の古いリポジトリにもstarsを付けて本物のユーザーに見せかけようとするし、1か月に5千プロジェクトへstarを付けて他の活動はない、といった形なので、すぐに不自然さが分かる。以前はGitHub Sponsorリングも見かけたが、資金洗浄や盗難カードの臭いが強かった
    • 私が探しているのは長期的なソフトウェア品質のシグナルだが、VCが探しているのは短期的な急上昇のmomentumシグナルだと思う。この二つはしばしば衝突する
    • ここでもpagerank的なグラフスコアはある程度効くと思う。評判の良いユーザーからのイシューが多いリポジトリにより高い点を与えれば、単純な操作には少し強くなるかもしれない
    • この3年で大きく変わっていないのなら、この記事はVCがstarsをどれほど信じているかをやや誇張している気がする。私が10年前にVCたちと話したときも、ほとんどはすでにstarsを虚栄指標として見切っていた
  • GitHubならこの問題を非常に簡単に取り締まれると思う。star販売業者ごとに10ドルずつ使って実際に買ってみて、そこに関与したアカウントをすべて停止すればいい。ごく少額でも、この生態系全体に大きな摩擦を与えられるはずだ
  • 関連資料としては、Dagsterの2023年の記事「Tracking the Fake GitHub Star Black Market with Dagster, dbt and BigQuery」と、arXiv論文「Six Million (Suspected) Fake Stars in GitHub: A Growing Spiral of Popularity Contests, Spams, and Malware」が参考になる