20 ポイント 投稿者 xguru 2024-05-10 | 1件のコメント | WhatsAppで共有
  • AIベースのWebスクレイピング用Pythonオープンソースライブラリ
    • LLMと直接グラフロジックを使って、Webサイト、ドキュメント、XMLファイル向けのスクレイピングパイプラインを生成
  • どんな情報を抽出したいかを指定すれば、ライブラリが自動で動作
  • Ollama、OpenAI、Groq、Azure、Geminiなどさまざまなモデルを利用可能
  • 提供されるノード
    • ベースノード、HTMLフェッチノード、Image_to_textノード、Text-To-Speechノード、インターネット検索ノード
    • 条件分岐ノード : グラフの次のノードを決定
    • 回答生成ノード : LLMを使って質問への回答を生成
    • generate_scraperノード : ユーザー入力に応じてコンテンツから必要な情報を抽出
    • Get_probable_tagsノード : コンテンツ内で必要な情報を持つHTMLタグを検索
    • Parseノード : HTMLドキュメントから情報を抽出
    • Ragノード : 大規模ドキュメントから関連情報を抽出
    • Robotsノード : ロボットによるアクセスが可能か確認

1件のコメント

 
ng0301 2024-05-13

CSR Webアプリについては、うまく取得できていないように感じられて残念でした。
その代わり、SSRについてはかなり満足できました。