ボット、あまりにも多くのボット

(wakatime.com)

1 ポイント投稿者 GN⁺ 2024-10-02 | 1件のコメント | WhatsAppで共有

ProductHuntは100万人以上の登録者を持つプロダクトローンチプラットフォームだが、公開データの分析では登録者の60%以上が自動化されたボットアカウントに分類された
プロダクト説明にLLMプロンプトインジェクションを入れて実際にローンチしたところ、ほぼすべてのコメントが自動化されたものだと判明し、最近のコメントの多くもChatGPTが作ったように見えた
ボットかどうかは公開データだけでは断定しにくいため、活動期間、アップボートのパターン、他のボットとの重なり、コメント内容を組み合わせたリスクスコアで判定した
2018年以降、ボットの登録数が実ユーザーの登録数を上回り、2022年にはボットによるアップボートが実際のアップボートを超え、投票リングがランキングに影響する可能性が高まった
ProductHuntでのローンチは今でも露出の機会になり得るが、コメント対応やSEO効果を期待するより、短時間で準備し、過度な時間をかけないほうが現実的

ProductHuntで明らかになったボット活動

ProductHuntは2014年初頭から最新の技術プロダクトのローンチを確認したり、コメントで類似ツールを探したり、自社プロダクトへのフィードバックを集めたりするのに有用だった
最近のプロダクトコメントの大半がChatGPT生成コメントのように見えたため、プロダクト説明に簡単なLLMプロンプトインジェクションを入れて実際にローンチしてみた
ローンチ後、ほぼすべてのコメントが自動化されたものだと判明し、ProductHuntのローンチ担当者がコメントに返信することは時間の無駄かもしれないという疑問が強まった
金銭と引き換えにアップボートを提供するというメールが継続的に届き、RedditにはProductHuntのアップボートを2回購入したという事例もある

分析に使用した公開データ

公開アクセス可能なProductHuntのユーザー、ローンチ、アップボート、コメント一覧を分析した
データ規模は次のとおり
- ユーザー登録: 100万件以上
- ローンチ: 30万件以上
- コメント: 250万件
- アップボート: 2,000万件
各プロダクトには、ローンチ日のPDT午前0時から24時間後のスコアである日次ランキングがある
- 1位はdaily rank 1
- 一部のプロダクトはrankがnullで、削除・通報・未ローンチが理由の可能性がある

ボットアカウントの判定方法

公開データだけではボット検出が難しいため、単一の基準だけでは十分ではなかった
最初はユーザーのコメント時間帯を分析して傾向を探そうとした
- あるユーザーは登録から677日、コメント2,009件、アップボート4,649件を記録しており、自動化を使うパワーユーザーのように見えたが、ボットには分類しなかった
- 別のユーザーは登録から140日、コメント173件、アップボート246件を記録しており、コメント間隔が規則的で、チャートが滑らかではなく箱型に見えた
最終的に複数のシグナルを組み合わせ、各ユーザーにリスクスコアを付与した
- アカウントの活動期間
- 時間に伴うアップボートのパターン
- 他のボットと共有したアップボート数
- コメント内容
ChatGPT生成コメントにはgame-changerのような単語がより頻繁に現れる
ボットコメントには、一般的には入力しにくいem dashのような文字や、非常に長い、または™を含むプロダクト名をそのまま入れる事例があった
一部のボットアカウントは実在する人物のLinkedIn名と自己紹介をそのまま使っていたが、当該人物たちはProductHuntアカウントを作成したことはないと回答した
クラスタリングには一定の効果があったが、多くのボットアカウントは使用後に捨てられるため、複数のランダムな投票のうち1つだけが他のボットと重なるケースが多い
- cupyとcudfにはGPUで必要なメソッドが実装されていなかったため、小さなデータセットにのみクラスタリングを実行した
- より経験のある人が取り組めば、ボット検出を改善できる可能性がある
分析の結果、ユーザー登録の60%以上が自動化されたボットアカウントとして検出された
- すべてのボットを捕捉できたわけではないため、保守的な数値である
- ProductHuntの内部データがあれば、ボット活動をより正確に見つけやすい

時間に伴うボット活動の変化

ユーザー登録
- 2018年以降、実ユーザーよりボットユーザーのほうが多く作成された
コメント
- 2022年末からボットコメントが大きく増加した
- この時期はChatGPTが広く利用可能になった時期と近い
- 2024年の急増は、時間が経つにつれてボットアカウントが削除されるためかもしれない
- 新しいアカウントはまだ削除されていない可能性が高く、コメントにアクセスしやすい
アップボート
- 2022年にボットによるアップボートが実ユーザーのアップボートを上回った
- ボットたちはProductHuntのニュースレターに掲載される可能性を高めるため、投票リングを形成している
ランキング
- ほとんどのローンチは実際のアップボートを数件しか受けない
- ボットはランダムに投票して紛れ込もうとするため、ボットによるアップボートのトレンドラインは実ユーザーのアップボートより滑らかである

日次ランキングとボットによるアップボートの関係

ProductHuntで1位になったローンチは、日刊・週間ニュースレターで紹介される
1位を取るには15%のボット投票が安全な水準のように見えた
ボット投票が60%を超えるローンチは、何らかの理由で1位にならないように見えた
2020年以降のローンチだけを見ると、最近の上位投稿ではボットがアップボートのより大きな割合を占めている
アップボートを購入したローンチは高品質なプロダクトではない可能性があり、1位よりも上位5位にとどまることが多いと見ている

ProductHuntローンチの実効性

コメントとアップボートの大半がボットであっても、ProductHuntには今でも一部の実ユーザーがいる可能性がある
ボットに支払ってニュースレターに掲載されれば、より多くの実在の人がプロダクトを見る可能性がある
ProductHuntでのローンチにはバックリンクSEO効果がない
- Googleがバックリンクとして計算するには、プロダクトへ向かうaリンク要素にnofollowがない必要がある
- ProductHuntのプロダクトリンクにはnofollowが含まれており、検索エンジンはバックリンクとして計算しない
- プロダクトにリンクを1つだけ入力すると、それは実際のリンクではなく、JavaScriptでプロダクトページを開くbutton要素になる
- 他の集約サイトがローンチを取得してリンクする可能性はあるが、ProductHunt自体はバックリンクとして計算されない
投資家の中にはProductHuntの**#1バッジ**を重視するグループがあり、投資家と話す際に役立つ可能性がある
全体としてProductHuntでのローンチは試す価値があるが、ローンチ準備に数分以上かけず、コメント返信に時間を無駄にしないほうがよい

残りの分析と関連プロジェクト

ボット投票を除去したときにその日の1位ローンチが変わるかを見るため、ボット投票なしのローンチ一覧を作りたいと考えていた
実際には金銭を支払っていないのにボットによるアップボートが多いローンチを名指ししたくなく、金銭を支払ったローンチにも追加の宣伝をしたくないため、その分析は今後の記事に回す
関連議論はHNにある
ProductHuntの問題を改善しようとする試みとして、wonderful.devとwonderful.dev/alanもあわせて紹介されている

1件のコメント

GN⁺ 2024-10-02

Hacker Newsの意見

ProductHuntが何らかのCAPTCHAソリューションを使っているのか気になる
CAPTCHAはたいてい評判が悪いが、この手のスパム攻撃の大半を防ぐうえでは、今でも十分に価値があると思う。ユーザビリティ・アクセシビリティ・プライバシーの問題は、ここ数年でユーザー入力なしに動作し、プライバシーも保護する方式へと改善されてきたし、高度なボットなら回避できるという批判についても、低労力のボットを防ぐには従来の手法だけでも十分有効だ。実際の人間を使う攻撃にはCAPTCHAはそもそも向いていないので、サイト側が別の防御手段を持つ必要はあるが、それが現在見られるスパムの主因ではないと思う
- 最近、人間である可能性が高いことを証明する、いわばステーク付きの仕組みを作れないか考えている
  たとえば「証明者」サイトで任意の慈善団体に5ドルを1回寄付すると、支払いの証明トークンを受け取り、HNのような提携サイトがそのトークンをバーンして、アカウントを人間である可能性が高い、あるいは少なくとも停止されると所有者に損失が出るボットとして表示できる。複数の政府発行ID照会システムよりはるかにプライバシーに優しいし、「発言権を金で買う」ようにも見えるが、無料システムで発生する時間・交通費・書類作業より実際には安くつくかもしれない。大きな問題は、盗難カードでトークンを買う不正決済、金だけ受け取って消える証明者サイト、証明トークンをこっそり収集する受け入れ先サイト、複数の寄付サイトとアカウントサイトがそれぞれ異なるトークンを信頼する分散的な処理になりそうなことだ
- CAPTCHA解答サービスという業界はすでに存在し、その大半は人件費の安い地域の人間を使っている
  人気サービスの1つでは、reCAPTCHA 1回あたり$0.001〜$0.002程度で、利用に高い技術力も要らない。コメントごとにCAPTCHAが必要だとしても、年50ドルほどあれば1日100コメントで1つのサイトをスパムできるし、平均的なスクリプトキディはふるい落とせても、スパムで金になるなら十分に採算が取れる。こうしたサービスを「エッジケース」と見るのは難しい
- Webサイト運営者はデータを公開したがる一方で、コピーはさせたくない
  これは機能しないDRMのような内在的矛盾だ。Web開発者も、MB単位のJavaScriptや過剰に複雑なデザインでサイトを膨らませがちだが、単なる静的サイトとCDNを使うほうがずっと安く済むかもしれない
- ほぼ完璧な解決策は、すべての投稿を手動で審査することだ
  自動化システムをスパムの第一防衛線として使い、通過した投稿は人を雇って1件ずつ確認すればよい。人間が投稿したものでも、この過程で一定の品質基準を保証できる。初期のスパムフィルターにかかった正当な投稿は、メールなどで異議申し立てを受け付けて手動レビュー待ちキューに入れればよい。簡単ではなく公開まで時間がかかるかもしれないが、スパムや低品質コンテンツは事実上ゼロに近づけられる
- VPN利用のせいで、すでにCAPTCHAに頻繁に引っかかる立場としては、これ以上増えてほしくない
  こうしたものに無駄にされている人間の時間がどれほどか、考えるべきだ
5年ほど前にProductHuntに製品を載せたときですら、1位保証の宣伝提案を何十件も受け取った
投稿して literally 1時間もしないうちにメッセージが殺到し、今はおそらくもっとひどいだろう
ユーザーがボットかどうかを検証する方法のない恣意的な分類から出発して分析するのは問題がある
その分類が間違っていれば、分析全体が間違う。特に「2022年末にChatGPTが広く使われ始めた頃にボットコメントが急増した」という部分が目につくが、分類基準の1つが「ChatGPT生成コメントは game-changer のような単語頻度が高く、em dash や ™ のような打ちにくい文字、長い製品名をそのまま含む」というものだ。つまりChatGPTのように振る舞えばボットと分類しておいて、ChatGPT公開後にそういうユーザーが増えたことを興味深い発見のように見ているわけだ。それ以前にもボットは多くいたが、別のソフトウェアを使って異なる振る舞いをしていたため検知できなかった可能性もある
- その通りだが、ChatGPTを使うボットという分類が正確なら、ChatGPT生成コメントが実際に急増したこと自体は注目に値する
  そしてその分類が正しければ、ChatGPTを使わないボットまで含めた全体のボット数を過小評価していたとしても、ボット生成コメントが実際の人間のコメント数をはるかに上回った点も重要だ。もちろん、言う通りここには「もし」がかなり多く、前提が崩れれば結論も崩れる
- 記事はプロンプトインジェクションのテストから始まっており、前提には証拠が添えられている
  そうでないなら代替の分類法を示すべきで、そうでなければ悪意があるように見え、有益ではない
- この種の統計的手法は、コメント欄がボットで埋まっているかを判断するには正確でも、個々のコメント1件がボットかどうかを判定するにはずっと精度が低い
ProductHuntに誰がいるのかが核心の問いだ
顧客なのか？疑わしいし、インディーハッカーなのか？その可能性はある。私たちは誰に売っているのか、そもそもPHでローンチする意味があるのかを見極める必要がある
- とても良い指摘だ
  PHでローンチしてその日1位、その週も1位になったが、新規顧客はほとんど増えず、その代わり投資家からのインバウンドは多くあった。資金調達中なら価値はあるが、そうでないなら顧客がいる場所へ行くべきだ。私たちの顧客はPHユーザーではなかった
分析は素晴らしいが、ProductHuntが「本物の」Webサイトだという事実のほうがむしろ驚きだ
かなり前にublacklistでPHをブロックしたが、SEO宣伝/ゴミのように見え、コンテンツがほとんどない「VS/比較/ベストアプリ5選」系のサイトとあまりに似ていたからだ。こうしたサイトは、手動でフィルタリングする速度より早く湧いてくる。改めて確認して純粋な生成コンテンツではないと分かった後でも、検索結果で偶然見かけたら、今でもその価値提案はよく分からない
- PHで良い順位を取ることをかなり重視している会社を何社も知っているが、反応は同じだった
  実際のエンドユーザーや企業が本当に気にする場所なのだろうか？
ボットと人間のトレンドは少し不穏だ
検出された人間は時間が経つほど投票やコメントを減らしているように見える一方で、ボットは逆に増えている。これはデッド・インターネット理論が正しいことを示す、また1つの兆候だろうか？
- DITは名前の付け方がよくない
  まだ起きてはいないが将来実現しそうだという意味では、デッド・インターネットの予言のほうが適切な表現だったかもしれない
- 関連して、HNの実際の人間は6時間でコメント5件に制限されるが、悪意ある行為者はアカウントを数百個作るだけでこの制限を回避できる
以前は、Webサイトに投票する**信頼のウェブ（WOT）**があった。
人間向けの信頼のウェブはボット防御に役立つだろうか？自分が実在の人間だと保証できるアカウントが十数個ほどあり、他の人たちも私に投票できるなら、信頼ネットワークを作れる。もちろんシードは必要だが、認証済みアカウントやソーシャルメディア連携、相互作用を通じて比較的簡単に立ち上げられる。XやMetaは、どのアカウントがボットかをかなり確実に把握しているはずだが、その知識をサービスとして提供することには関心がなさそうだ
- AIは今後もさらに良くなっていくはずだ。
  実際に人間が背後にいると信じさせるオンライン上の存在感を構築することを目的としたAIが登場するまで、それほど遠くはない。偽の人物がありふれた活動をしている生成動画まで投稿できる。結局は信頼のウェブ、証明、エージェントの評判スコアが必要になるだろうが、そこには現実世界での対面の相互作用、政府による一定の支援、撮影物とメタデータを認証できるカメラのような要素も含まれる必要がありそうだ。コンテンツを消費しながら真偽を確認したい人は、この仕組みに参加するか、既存のメディアにとどまる必要があるだろうし、一部の国は市民が真実のニュースを消費できるよう支援する法律を作るかもしれない。ただ、相手の正体を実際には知らないまま、かなり強い信頼ネットワークを作る方法はないと思う。だからこの信頼ネットワークは、犯罪者や政府が標的を見つけるのにも使われるだろう。AIが人間のふりをすることを許す社会的コストは大きすぎるので、これを禁止する立法には価値があるかもしれない
- 結局のところ、あなたは顧客ではなく、ある広告主が顧客なのだということを忘れてはいけない。
  より多くの広告を売るためにユーザー数を水増しすることが、こうしたサービスの主な機能だ
- そのような仕組みは、国家的な便宜の目的に合わせて押し流され、歪められていくだろう
Redditでは、コメントがあまり付いていない投稿がいくつかあるが、毎週くらいの頻度でGPTベースのボットがやって来て、「わあ！本当に考えさせられますね、なぜ重要なのか気になります」みたいな、いかにもありきたりな質問を残していく。
私にもっと多くのデータをシステムに食わせようとする試みに見える。こうしたボットをReddit自身が動かして参加を促しているとしても驚かない
- Redditの歴史を見ればわかる。
  ボットが可能になる前は、人が直接管理する偽アカウントでキュレーションしていたし、今ではボットが可能になったのだから、人気サブレディットのコメントや投稿の大半はボットだと強く思う。そのかなりの部分はReddit自身が運用していると見ている

ボット、あまりにも多くのボット

ProductHuntで明らかになったボット活動

分析に使用した公開データ

ボットアカウントの判定方法

時間に伴うボット活動の変化

ユーザー登録

コメント

アップボート

ランキング

日次ランキングとボットによるアップボートの関係

ProductHuntローンチの実効性

残りの分析と関連プロジェクト

関連記事

1件のコメント

Hacker Newsの意見