Show HN: WebページをMarkdownに整理・変換するツールを制作 (markdowndown.vercel.app) 3 ポイント 投稿者 GN⁺ 2024-04-15 | 1件のコメント | WhatsAppで共有 関連記事 defuddle - あらゆるウェブページをMarkdownとして抽出 56 ポイント · 8件のコメント · 2026-03-16 HTML-to-Markdown - Golang/CLIでWebサイト全体をMarkdownに変換 9 ポイント · 1件のコメント · 2024-11-10 VercelがAIエージェント向けにWebページ容量を500KB→2KBに削減した方法 17 ポイント · 2件のコメント · 2026-02-09 Quarkdown 2.0.0 - 強力な機能を加えたMarkdown 1 ポイント · 1件のコメント · 22 일 전 Show HN: Bullshit Remover の紹介 1 ポイント · 1件のコメント · 2024-09-16 1件のコメント GN⁺ 2024-04-15 Hacker Newsの意見 要約すると以下の通り: ウェブページをMarkdownに変換するツールを開発するにあたり、負荷管理や無料サービスの持続可能性などについて悩みがある ウェブページをMarkdownに変換する際の重要な問題は次の通り: ページコンテンツの徹底したスクレイピング(高い再現率) 広告/補助コンテンツの除去(高い適合率) 正しいレイアウト/セクション種別の抽出(フォーマット) 既存のオープンソースツール(Trafilatura、Newspaper4k、python-readability など)は一定水準以上の性能を示している。差別化ポイントや改善点が気になる クッキーメッセージが表示されるサイトでは、実際のコンテンツの代わりにクッキー関連の内容だけがパースされる問題がある(例: cnbc.com) GPTを活用した画像ダウンロードやフィルタリングなどのアイデアが良い 類似ツールの紹介: url2text.com: JSでレンダリングされたHTML、メタデータ、スクリーンショットなどもあわせて抽出可能 firecrawl.dev: 単一ページだけでなくサイト全体のクロール機能を提供 substack-ai.vercel.app: Substackニュースレターのコンテンツ抽出に特化 content-parser.com: Markdown、HTML、テキスト、PDF など多様な形式に対応 pandoc のような汎用ドキュメント変換ツールでも類似機能を実現可能 ほとんどのツールはMozillaの readability プロジェクトを活用して開発されている
1件のコメント
Hacker Newsの意見
要約すると以下の通り:
Trafilatura、Newspaper4k、python-readabilityなど)は一定水準以上の性能を示している。差別化ポイントや改善点が気になるcnbc.com)url2text.com: JSでレンダリングされたHTML、メタデータ、スクリーンショットなどもあわせて抽出可能firecrawl.dev: 単一ページだけでなくサイト全体のクロール機能を提供substack-ai.vercel.app: Substackニュースレターのコンテンツ抽出に特化content-parser.com: Markdown、HTML、テキスト、PDF など多様な形式に対応pandocのような汎用ドキュメント変換ツールでも類似機能を実現可能readabilityプロジェクトを活用して開発されている