2 ポイント 投稿者 GN⁺ 2024-07-31 | 1件のコメント | WhatsAppで共有

en.osm.town の紹介

  • en.osm.town は Mastodon をベースにした分散型ソーシャルネットワークの一部
  • OpenStreetMapコミュニティの独立したコミュニティで、OpenStreetMap Foundation の資金支援を受けている
  • サーバー統計: アクティブユーザー257人

主な内容

  • Grant Slater は AI企業に対し、OpenStreetMap のデータをこっそりスクレイピングするのではなく、1万ドルの寄付を提案
  • 5万ドルを寄付すれば、リアルタイムのストリーミング更新も提供可能
  • Bart Louwers は OpenStreetMap のスクレイピングはよくあることだと述べている
  • wikiyu は planet.osm データを使うほうがより効率的だと主張
  • Josua は AI が非効率な方法で学習していると批判
  • Juan Luis は Read the Docs でも同様の AIクローラー乱用問題が起きていると述べている
  • Simon Poole は、合理的な方法ですら AI企業のイメージを損なう可能性があると主張
  • Michał は、特定の国の請負業者が OSM データをダウンロードする任務を与えられていた可能性を提起
  • leadingzero は OSM ライセンス要件が適切に施行されていないと批判
  • Grant Slater はタイル属性追跡のための GitHub リポジトリを作成したと言及
  • Guillaume Rischard は最近ドイツで法的問題を解決したと述べている
  • Adderall girl grindset (Jes) は AIクローラーをブロックすることを提案

GN⁺ のまとめ

  • この記事は OpenStreetMap のデータをスクレイピングする AI企業に関する問題を扱っている
  • OpenStreetMap のデータを効率的に利用する方法と、寄付を通じたデータアクセスのアプローチを提案
  • AIクローラーの乱用問題と、それに対する対応策を議論
  • 類似機能を持つプロジェクトとして Google Maps と Bing Maps がある

1件のコメント

 
GN⁺ 2024-07-31
Hacker Newsの意見
  • AIクローラーがrobots.txtを無視し、公開APIを使わず、ピーク負荷を順守しないため、インフラコストが増加している
  • OpenStreetMap Foundationの議長は、OpenStreetMapのデータは無料で大量ダウンロードできるので、スクレイピングの代わりにそれを使うよう勧めている
    • スクレイピングは寄付されたリソースに大きな負荷をかけ、スクレイピングIPをブロックするのにも時間と労力が必要になる
    • リソースと時間を尊重することが、サービスを無料で維持する助けになる
  • OpenStreetMapのインスタンスは10分でセットアップでき、単なるdocker runコマンドで可能
    • インデックス作成には時間がかかるが、必要なリソースに比べればそれほど長くはかからない
  • OSMデータが必要だったが、データの入手方法をきちんと理解していなかった
    • 100GBの大容量ファイルをダウンロードし、不明瞭な形式やライブラリを使う必要がある
    • 情報が分散しており、HTTP APIは制限が厳しいかレート制限がある
    • 結局、前処理済みのOSMデータを提供する無料プロジェクトを使った
  • OPはウェブサイトとマッピングAPIを攻撃的にスクレイピングするクローラーを制限・遮断した後、皮肉めいた反応を示した
    • OpenStreetMapのデータは無料でダウンロード可能で、AWS S3とTorrent経由で提供されている
    • 初めて始めるなら、小さな地域の抽出データを使うのがよい
  • planet.osmをTorrentに載せ、スクレイピングをTorrent経由でのみ許可すれば、ネットワーク負荷を分散できる
  • AIクローラーがウェブインターフェース経由で全ファイルの全改訂を要求するのは非効率的
    • これは電力とリソースの浪費につながる
  • AI企業向けのハニーポットを作り、無限ループの無意味なコンテンツを生成することを提案している
  • CommonCrawlのようなプロジェクトが、さまざまな企業がサーバーをスクレイピングする必要性をなくせていないのは残念
    • それは、より頻繁に訪問したいから、あるいは投資家に印象づけるために多額のVC資金を使っているからだ
  • AI企業がOSMで何をスクレイピングしているのか、という疑問がある