defuddle - あらゆるウェブページをMarkdownとして抽出
(github.com/kepano)- ウェブページの不要な コメント、サイドバー、ヘッダー、フッターを除去し、核心となる本文だけを整形してHTML/Markdownとして抽出
- YouTube動画は会話を話者ごとに分離して抽出してくれる(0.12.0から)
- Obsidian Web Clipper向けに開発されたが、ブラウザー・Node.jsなどさまざまな環境で利用可能
- Mozilla Readability の代替として設計され、より柔軟な処理と一貫した出力を提供
- 不確実な要素の除去を最小化
- 脚注、数式、コードブロックなどの標準化された出力をサポート
- モバイルスタイル分析 による不要要素の検出
- schema.orgメタデータ を含む、より多くのメタデータを自動抽出
- CLIインターフェース をサポートし、ターミナルで直接HTML・URLをパース可能
- MITライセンス
8件のコメント
Defuddle - Readabilityを代替するHTML-to-Markdownオープンソース
10か月前にも一度取り上げられていましたが、今回、YouTube動画の会話を話者ごとに分離して抽出する機能が追加されました。
そしてその間に、X URLの非同期抽出や記事抽出、Substackアプリ対応、CLIの追加、GitHub URL対応など、多くの機能が追加されました。
Jina AI Reader - URLをLLMフレンドリーな入力に変換してくれるツール
GeekNewsの内部リンクには自動でタイトルが付いてほしい……
修正しておきました。今後投稿されるコメントは自動的にタイトル変換されます。
わあ、ありがとうございます
わあ、これってこんなにすぐできるものだったんですね。自分も不便に感じたことがあったので、言ってみればよかったです
Markdown の抽出が少し曖昧ですね。Web ページの中でも、SEO がしっかり適用されているケースでだけうまく抽出される感じですが、合っていますか?
Claude Codeと組み合わせて使うと本当に良かったです。