AIスクレイパーに「18禁データ」を食べさせる：学習フィルターを逆手に取ったブログ防衛術

(github.com/vivienhenz24)

7 ポイント投稿者 baeba 2025-12-19 | 2件のコメント | WhatsAppで共有

AI学習データ収集防止のための「Fuzzy Canary」ツール分析

サーバーサイドとクライアントサイドの注入方式の区別

サーバーサイド実装（推奨）:
特徴: HTML生成時点で「Canary（トラップリンク）」を含めるため、JavaScriptを実行しないスクレイパーにも効果的に機能する。
Reactベースのフレームワーク（Next.js、Remix）: ルートレイアウトに <Canary /> コンポーネントを追加して適用する。Remix など一部のフレームワークでは、ローダー（Loader）を通じてユーザーエージェント（User Agent）情報を渡す必要がある。
非Reactフレームワーク: getCanaryHtml() ユーティリティを使って、<body> タグの開始部分にHTMLを直接挿入する。
クライアントサイド実装:
特徴: 静的サイト（Static Site）やクライアント注入を好む場合に使われる。
適用: メインエントリーファイルに自動初期化モジュール（@fuzzycanary/core/auto）をインポートすると、ページ読み込み時に自動で注入される。

正常な検索ボットの識別と静的サイトの限界

ボットフィルタリング機構: Fuzzy Canary は Google、Bing、DuckDuckGo など既知の検索エンジンボットを識別し、それらのリクエストにはトラップリンク注入を省略して、SEOへの悪影響を防ぐ。
サーバーレンダリングの利点: サーバーがリクエストされたユーザーエージェントを確認し、検索エンジンには「クリーンなHTML」を、AIスクレイパーには「Canary入りHTML」を選択的に提供できる。
静的サイトの構造的問題:
ビルド時点でHTMLが生成される静的サイトは、ユーザーエージェントを確認できない。
すべてのHTMLにトラップリンクが含まれる場合、Google などの検索エンジンがそのリンクを認識してしまい、SEOに悪影響を及ぼす可能性がある。
対応戦略: 静的サイトジェネレーターを使う場合は、クライアントサイド初期化方式を使ってランタイムに navigator.userAgent を確認し、注入するかどうかを決める必要がある（ただし、JavaScriptを実行するボットにしか有効でないという限界がある）。

技術的効率性: データ保護の観点では、JavaScript実行の有無に関係なく動作するサーバーサイド方式が最も効果的である。
SEOとのバランス: 静的サイト運用時は、SEO低下のリスクを回避するため、クライアントサイド方式を採用することが構造的に避けられない。
最終勧告: 使用中のウェブフレームワークのレンダリング方式（SSR vs Static）に応じて、スクレイピング防止の効率とSEO維持のバランスを考慮し、適用方式を選ぶべきである。

2件のコメント

baeba 2025-12-19

1. 発想の創造性と娯楽的価値

2. 実質的な遮断効果と事例

3. 潜在的な副作用（Risk）への懸念

SEOペナルティ: Google などの正規検索エンジンが成人向けリンクを検知した場合、検索順位が下がる可能性が指摘された。
アクセス制限: 社内ネットワーク（Corporate Network）の有害サイトフィルタに引っかかり、技術ブログへのアクセスが遮断されるリスクがある。

4. 技術的代替案をめぐる議論

Cloudflare: 無料のWAFでも十分だという意見と、中央集権的なサービスへの拒否感が共存している。
独自防御: 簡単なJS/クッキー認証で防御できるという主張に対し、最新のヘッドレスブラウザ（Headless Browser）ボットには無力だという反論が対立した。

5. AI企業の非倫理性への批判

aer0700 2025-12-20

やはり一番の問題はSEOですね……