defuddle - あらゆるウェブページをMarkdownとして抽出

xguru · 2026-03-16T09:47:01+09:00

ウェブページの不要なコメント、サイドバー、ヘッダー、フッターを除去し、核心となる本文だけを整形してHTML/Markdownとして抽出 YouTube動画は会話を話者ごとに分離して抽出してくれる（0.12.0から） Obsidian Web Clipper向けに開発されたが、ブラウザー・Node.jsなどさまざまな環境で利用可能 Mozilla Readability の代替として設計され、より柔軟な処理と一貫した出力を提供不確実な要素の除去を最小化脚注、数式、コードブロックなどの標準化された出力をサポートモバイルスタイル分析による不要要素の検出 schema.orgメタデータを含む、より多くのメタデータを自動抽出 CLIインターフェースをサポートし、ターミナルで直接HTML・URLをパース可能 MITライセンス

(github.com/kepano)

56 ポイント投稿者 xguru 2026-03-16 | 8件のコメント | WhatsAppで共有

ウェブページの不要な コメント、サイドバー、ヘッダー、フッターを除去し、核心となる本文だけを整形してHTML/Markdownとして抽出
YouTube動画は会話を話者ごとに分離して抽出してくれる（0.12.0から）
Obsidian Web Clipper向けに開発されたが、ブラウザー・Node.jsなどさまざまな環境で利用可能
Mozilla Readability の代替として設計され、より柔軟な処理と一貫した出力を提供
- 不確実な要素の除去を最小化
- 脚注、数式、コードブロックなどの標準化された出力をサポート
- モバイルスタイル分析 による不要要素の検出
- schema.orgメタデータ を含む、より多くのメタデータを自動抽出
CLIインターフェース をサポートし、ターミナルで直接HTML・URLをパース可能
MITライセンス

8件のコメント

xguru 2026-03-16

Defuddle - Readabilityを代替するHTML-to-Markdownオープンソース
10か月前にも一度取り上げられていましたが、今回、YouTube動画の会話を話者ごとに分離して抽出する機能が追加されました。
そしてその間に、X URLの非同期抽出や記事抽出、Substackアプリ対応、CLIの追加、GitHub URL対応など、多くの機能が追加されました。

tested 2026-03-16

Jina AI Reader - URLをLLMフレンドリーな入力に変換してくれるツール

tested 2026-03-16

GeekNewsの内部リンクには自動でタイトルが付いてほしい……

xguru 2026-03-16

修正しておきました。今後投稿されるコメントは自動的にタイトル変換されます。

tested 2026-03-16

わあ、ありがとうございます

crawler 2026-03-16

わあ、これってこんなにすぐできるものだったんですね。自分も不便に感じたことがあったので、言ってみればよかったです

shakespeares 2026-03-16

Markdown の抽出が少し曖昧ですね。Web ページの中でも、SEO がしっかり適用されているケースでだけうまく抽出される感じですが、合っていますか？

dbs0829 2026-03-16

Claude Codeと組み合わせて使うと本当に良かったです。

defuddle - あらゆるウェブページをMarkdownとして抽出

関連記事

8件のコメント