56 ポイント 投稿者 xguru 2026-03-16 | 8件のコメント | WhatsAppで共有
  • ウェブページの不要な コメント、サイドバー、ヘッダー、フッターを除去し、核心となる本文だけを整形してHTML/Markdownとして抽出
  • YouTube動画は会話を話者ごとに分離して抽出してくれる(0.12.0から)
  • Obsidian Web Clipper向けに開発されたが、ブラウザー・Node.jsなどさまざまな環境で利用可能
  • Mozilla Readability の代替として設計され、より柔軟な処理と一貫した出力を提供
    • 不確実な要素の除去を最小化
    • 脚注、数式、コードブロックなどの標準化された出力をサポート
    • モバイルスタイル分析 による不要要素の検出
    • schema.orgメタデータ を含む、より多くのメタデータを自動抽出
  • CLIインターフェース をサポートし、ターミナルで直接HTML・URLをパース可能
  • MITライセンス

8件のコメント

 
xguru 2026-03-16

Defuddle - Readabilityを代替するHTML-to-Markdownオープンソース
10か月前にも一度取り上げられていましたが、今回、YouTube動画の会話を話者ごとに分離して抽出する機能が追加されました。
そしてその間に、X URLの非同期抽出や記事抽出、Substackアプリ対応、CLIの追加、GitHub URL対応など、多くの機能が追加されました。

 
tested 2026-03-16

GeekNewsの内部リンクには自動でタイトルが付いてほしい……

 
xguru 2026-03-16

修正しておきました。今後投稿されるコメントは自動的にタイトル変換されます。

 
tested 2026-03-16

わあ、ありがとうございます

 
crawler 2026-03-16

わあ、これってこんなにすぐできるものだったんですね。自分も不便に感じたことがあったので、言ってみればよかったです

 
shakespeares 2026-03-16

Markdown の抽出が少し曖昧ですね。Web ページの中でも、SEO がしっかり適用されているケースでだけうまく抽出される感じですが、合っていますか?

 
dbs0829 2026-03-16

Claude Codeと組み合わせて使うと本当に良かったです。