5 ポイント 投稿者 GN⁺ 2025-01-17 | 1件のコメント | WhatsAppで共有
  • ウェブクローラーを捕捉するためのソフトウェアで、特に大規模言語モデル(LLM)向けのデータをスクレイピングするクローラーを対象としている。
    • 無限のページシーケンスを生成し、クローラーが抜け出せないようにする。
    • クローラーがサーバーを過負荷にしないよう意図的な遅延を加え、Markov-babble を使ってクローラーにデータを収集させることもできる。
    • このソフトウェアは悪意ある目的を想定して設計されており、使用には注意が必要。
  • 警告
    • LLMクローラーは非常にしつこく、このソフトウェアを使うとクローラーに望むデータを与え続けることになる。
    • 検索エンジン向けのクローラーとAIモデルを訓練するクローラーを区別する方法はなく、このソフトウェアを使うとサイトが検索結果から消える可能性が高い。
  • 使い方
    • Nginx または Apache の背後に tarpit を隠すことが推奨される。
    • HTTPヘッダーを使って tarpit を構成し、例として nginx の設定スニペットが提供されている。
  • インストール
    • Docker を使うか、手動でインストール可能。
    • Lua、SQLite、OpenSSL および複数の Lua モジュールが必要。
    • インストール後、config.yml ファイルを調整して起動できる。
  • Markov Babbler のブートストラップ
    • Markov 機能には学習済みコーパスが必要で、さまざまなテキストソースを使って学習できる。
    • 学習データは POST エンドポイントに送信して追加できる。
  • 統計
    • JSON形式で複数の統計エンドポイントを提供し、IPアドレスやユーザーエージェント文字列を確認できる。
  • Nepenthes の防御的な利用
    • サイトから Nepenthes の設置場所へのリンクを通じて、クローラーが実際のコンテンツにアクセスできないようにする。
    • 収集したIPアドレスの一覧を使ってクローラーをブロックできる。
  • Nepenthes の攻撃的な利用
    • クローラーをブロックせず、できるだけ多くのデータを提供してAIモデルを妨害できる。
  • 設定ファイル
    • config.yaml ファイルで使えるすべてのディレクティブが説明されている。
    • さまざまな設定によって Nepenthes の動作を調整できる。

1件のコメント

 
GN⁺ 2025-01-17
Hacker Newsの意見
  • ChatGPTクローラーの反射型DDoS脆弱性をテストする方法についての意見がある。この脆弱性では、単一のHTTPリクエストが5000件のHTTPリクエストを引き起こし得る

    • OpenAIとMicrosoftはこの脆弱性を無視しており、報告プロセスは非常に困難だった
    • 法的な理由から、この脆弱性を悪用しないよう勧めている
  • 過去にボットモーテルを運営していた経験を共有し、クローラーが何日間も閉じ込められていた事例に言及している

    • セキュリティはしばしば後回しにされ、クローラーとの戦いは終わりのない競争である
  • 非営利ウェブサイトがAmazonボットの攻撃的なクローリングによって一時的に閉鎖された経験を共有している

    • Sitegroundがサイトを復旧してくれ、その後robots.txtにAmazonボットを追加した
    • 現状への不満を示し、タールピットや法律が解決策になり得るのか疑問を呈している
  • タールピットはクローリングを遅くできるが、多くのサイトがこれを使わない限り大きな効果はないだろうという意見がある

    • 悪質なボットを識別するのは難しく、検索結果から除外されるリスクがある
  • ランダムなマルコフ連鎖ベースのテキスト生成器は、LLM学習用クローラーにとって大きな問題にはならないだろうという意見がある

    • ランダムな汚染よりも、反復的で意味不明なテキストを使う方がより効果的かもしれない
  • 現在502 Bad Gatewayエラーが発生しており、AIウェブクローラーに分類されたのか、それとも過負荷なのか分からないという意見がある

  • この概念が普及しない限り、フィルタリングは容易だという意見がある

    • 大企業はこうしたソフトウェアを防ぐためにチームを編成できる
  • すでにインターネットには「無限」のウェブサイトが存在し、クローラーはドメインごとにクロールするページ数を決めている

    • 人気のあるサイトは多くクロールされるが、無名のサイトはあまりクロールされない
  • 単純なアプローチとして、誤ったHTTPリクエストごとに100件の誤ったHTTPリクエストを送る方法を検討している

  • このソフトウェアが適用されたサイトは、すべての検索結果から消える可能性が高いという意見がある

    • これはバグかもしれないし、機能かもしれない