Scrapegraph-ai - LLMと直接グラフロジックを使ったWebスクレイピング
(github.com/VinciGit00)- AIベースのWebスクレイピング用Pythonオープンソースライブラリ
- LLMと直接グラフロジックを使って、Webサイト、ドキュメント、XMLファイル向けのスクレイピングパイプラインを生成
- どんな情報を抽出したいかを指定すれば、ライブラリが自動で動作
- Ollama、OpenAI、Groq、Azure、Geminiなどさまざまなモデルを利用可能
- 提供されるノード
- ベースノード、HTMLフェッチノード、Image_to_textノード、Text-To-Speechノード、インターネット検索ノード
- 条件分岐ノード : グラフの次のノードを決定
- 回答生成ノード : LLMを使って質問への回答を生成
- generate_scraperノード : ユーザー入力に応じてコンテンツから必要な情報を抽出
- Get_probable_tagsノード : コンテンツ内で必要な情報を持つHTMLタグを検索
- Parseノード : HTMLドキュメントから情報を抽出
- Ragノード : 大規模ドキュメントから関連情報を抽出
- Robotsノード : ロボットによるアクセスが可能か確認
1件のコメント
CSR Webアプリについては、うまく取得できていないように感じられて残念でした。
その代わり、SSRについてはかなり満足できました。