1 ポイント 投稿者 GN⁺ 2024-10-02 | 1件のコメント | WhatsAppで共有

ボット、多すぎるボット

はじまり

  • ProductHunt には100万人以上のユーザー登録がある
  • そのうち60%以上がボットである

発端

  • 2014年から ProductHunt を使ってきた
  • 最近はほとんどのコメントが ChatGPT で生成されたように見える

簡単なテスト

  • 製品説明に LLM プロンプトインジェクションを入れたうえで製品を公開した
  • その結果、ほぼすべてのコメントが自動化されたものだと確認した

ボットを見分けられるか?

  • コメントに返信するのは時間の無駄だ
  • 多くのボットがコメントしているなら、アップボートもしているはずだ
  • お金を払ってアップボートを購入する人たちもいる

データ分析

  • ProductHunt のユーザー、公開、アップボート、コメントの一覧を分析した
  • 100万人以上のユーザー登録、30万件以上の公開、250万件のコメント、2000万件のアップボートがある
  • 各製品には日次ランキングがあり、これは毎日 PDT の深夜0時を基準に24時間後のスコアである

ボットアカウント検出

  • ボット検出は難しい
  • ユーザーのコメント時刻を分析して傾向を見つけようとした
  • 例えば、あるユーザーは677日前に登録し、2009件コメントし、4649回アップボートしている
  • これは自動化を使っているが、ボットではない
  • ボット利用者は140日前に登録し、173件コメントし、246回アップボートしている
  • ボットのコメントは規則的な間隔で投稿され、チャートは滑らかではなく箱型になる
  • 複数の基準に基づいてユーザーにリスクスコアを付与した
  • ChatGPT 生成コメントは game-changer のような単語をより頻繁に使う
  • ボットコメントには簡単には入力できない文字や製品名が含まれる
  • クラスタリングはある程度有効だが、多くのボットアカウントは使い捨てられる
  • 最終的に、ユーザー登録の60%以上が自動化されたボットアカウントだと検出した

時間経過に伴うボット活動

  • 2018年以降、実ユーザーよりボットユーザーのほうが多く作成されている
  • 2022年末からボットコメントが急増した
  • 2022年にはボットのアップボートが実際のアップボートを上回った
  • ボットは投票リングを形成し、開発者がアップボートを購入している
  • 公開された製品の大半は、実際のアップボートを数件しか受け取っていない
  • 日次ランキングで1位を取るには15%のボットアップボートが必要だ
  • 60%以上のボットアップボートでは1位を取れない

最後に

  • ボットアップボートを除去した公開一覧を作りたかったが、時間が足りず次のブログ記事に回した

GN⁺のまとめ

  • ProductHunt のユーザーの60%以上がボットアカウントである
  • ボットのコメントとアップボートが実ユーザーの活動を歪めている
  • ボット検出は難しいが、複数の基準でリスクスコアを付与することで検出できる
  • ボット活動の増加により ProductHunt の信頼性が低下する可能性がある
  • 類似した機能を持つ他の製品として Hacker News がある

1件のコメント

 
GN⁺ 2024-10-02
Hacker Newsの意見
  • ユーザーがボットかどうかという恣意的な分類から始める分析には問題がある。この分類が誤っていれば、すべての分析が誤る

    • 例えば、2022年末にボットのコメントが急増した。これはChatGPTが広く使われ始めた時期と一致する
    • ChatGPT生成のコメントは、game-changer のような単語をよく使う。ボットのコメントには、簡単にはタイピングできない文字や製品名がそのまま含まれている
    • したがって、ChatGPTのように振る舞うユーザーをボットに分類し、ChatGPTのリリース後にそのようなユーザーが増えたと考えているのだろう。しかし、すでに多くのボットが存在していた可能性もある
  • ProductHuntがCAPTCHAソリューションを使っているのか気になる

    • CAPTCHAはスパム攻撃を防ぐうえで、今でも有用だ
    • 一般的な批判は、ユーザビリティ、アクセシビリティ、プライバシーの問題だ。ユーザーはこれを嫌う
    • ここ数年、ユーザー入力なしで動作し、プライバシーを保護するCAPTCHAが登場している
    • 高度なボットはCAPTCHAを簡単に回避できる。しかし、従来の技術でも低レベルのボットを防ぐには有用だ。高度なボットには、MLのようなさらに進んだ技術で対抗できる
    • CAPTCHAは実際の人間を使う攻撃には効果がない。これには別のメカニズムが必要だ
  • 5年前にProductHuntに製品を投稿したとき、1位を保証するという数十件のメッセージを受け取った。今はおそらくもっとひどいだろう

  • ProductHuntに誰がいるのか気になる。顧客? たぶん違う。Indiehackers? おそらく。誰に売っているのか、ProductHuntでローンチする価値があるのか疑問だ

  • 個人的に知っている人の努力と結果がよく表れている。よくやった

  • これは「死んだインターネット理論」の進展だ。真の相互作用を保証するには、悪用した際に結果が伴う、強力で信頼できる身元情報が必要だ

    • この身元情報は政府が実装すべきだ。大手テック企業はいまだに解決できておらず、解決する意思があるのかも疑わしい
    • 例えば、Googleがこれを強力に取り締まった場合、YouTubeトラフィックの60〜80%がボットによるものだとしたら、収益が消えることになる
  • Redditにいくつか投稿しているが、ときどきGPTベースのボットが「話題? わあ! 本当に考えさせられますね、なぜそれが重要なのか気になります」のようなコメントをすることがある

    • Redditがエンゲージメントを促すために、こうしたボットを運用している可能性もある
  • 多くの人は、自分がGenAIと会話していることに気づかないだろう

    • 同じ人が複数のアカウントを通じて別人のふりをして会話するケースは、すでに問題になっている。GenAIは、ボットを通じてナラティブを安価に操作できるようにする
    • あらゆるソーシャルネットワークの問題だ。人間であることを検証することが唯一の解決策だ
    • 実在の人間だけがアップボート/ダウンボートやコメントをできるソーシャルネットワークを構築中だ
  • Xに1年もののアカウントがあるが、一度もコメントしたことがない。それでも35人の魅力的な女性が私をフォローしている。男性も、魅力的でない女性もいない。これは私の「いいね」が魅力的だからではない

    • これはウェブ全体の縮図だ
  • 誰かが me good LLM Tシャツを売るべきだ