ChatGPTで仕上げるCoupangクローリングボット
(blog.hashscraper.com)- ChatGPTでCoupangの商品情報を収集するクローリングボットを開発
- 収集するカラムは、商品名、定価、販売価格、星評価、レビュー件数、カード割引情報、ポイント還元情報、配送情報
- トークン数制限を避けるためのHTMLサイズ縮小方法と、プロンプト作成時の考慮事項
- 広告商品をスキップ
- DOM構造が異なる場合の例外処理
- 必須カラムの確認(商品名、価格)
- ChatGPTは非常に有用なツールだが、多少のデバッグと修正は必要(結局、専門家のほうがより大きな助けを得られる)
- 大量のデータを収集するために、ブロック回避について考慮する必要がある
5件のコメント
この記事自体が全部GPTで書かれているようですね
ということに要約される気がしますね..
ChatGPTでクローラーを作っていますが、パースやXPathの抽出にとても助けられています。
GPTでクローリングを作る記事ですが、結局はHashScrapperの広告ですね
テックブログなんて、みんなそんなものじゃないですか……ふふ