9 ポイント 投稿者 GN⁺ 2024-11-10 | 1件のコメント | WhatsAppで共有
  • HTMLをクリーンで読みやすいMarkdownに変換する強力なツール
  • 複雑なフォーマットをサポートし、カスタムオプションやプラグインを通じて変換プロセスを完全に制御可能
  • GolangライブラリまたはCLIコマンドを使用するか、オンラインデモやREST APIを通じて直接確認可能

主な機能

  • Bold & Italic: 単語内でも太字と斜体をサポート
  • List: 順序付きリストと順序なしリストの完全なネストをサポート
  • Blockquote: 引用内に他の要素を含めることができ、ネストした引用もスムーズにサポート
  • Inline Code & Code Block: バックティックと複数行のコードブロックを正しく処理し、コード構造を維持
  • Link & Image: 複数行のリンクを正しくフォーマットし、空行に対するエスケープを追加
  • Smart Escaping: 特殊文字を必要な場合にのみエスケープし、意図しないMarkdownレンダリングを防止
  • Remove/Keep HTML: 特定のHTMLタグを削除または保持できる選択肢を提供
  • Plugin: プラグインを簡単に拡張したり、機能強化のためにカスタムプラグインを作成可能
    • カスタムロジックが必要な場合は、コードを書いて登録可能
    • デフォルト設定が気に入らなければ、PriorityEarlyを使って他より先にロジックを実行可能
  • Converterは複数のゴルーチンで使用でき、内部的にミューテックスを使用

1件のコメント

 
GN⁺ 2024-11-10
Hacker Newsの意見
  • Jina.aiの無料APIを使えば、認証やAPIキーなしでURLを取得し、Markdown文書を得られる

    • 一部のWebサイトは処理できないが、多くの場合は作業の90%をこなせる
    • Pandocを使ってHTMLをMarkdownに変換できる
  • MITライセンスのこのツールが、Kindleで読むためのp2kやInstapaperなどの代替として使えるのではないかと気になっている

    • こうしたサービスはレンダリングが不正確で、購読料も必要になる
    • プロジェクトが積極的にメンテナンスされるなら、さまざまな記事でテストして問題を報告できる
  • このライブラリをLambda関数で使い、URLをMarkdownに変換してS3に保存している

    • すべてのブックマークアプリにWebhookでつなぎ、ブックマークしたものをすべてMarkdownとして保存している
    • Obsidianに取り込むのに便利
  • LLMにWebページのデータを渡すのに役立つ

    • Elixir界隈向けに似たツールを作ったが、機能は限定的だった
    • アイデアを取り入れられそう
  • ツールにn-gram重複除去機能があるとよい

    • ヘッダーとフッターから同じコンテンツを取り除く機能が必要
  • Urlboxを使えば、Webページの正確なスクリーンショットとMarkdownを取得できる

    • 無料ツールとしてこの機能を使える
  • RedditToMarkdownとurltomarkdown.comは、LLMやAIアプリの構築に役立つ

  • Kotlin/Springアプリで使える類似ライブラリを探している

    • HTMLからMarkdownに変換するとき、HTML文書の文字列はすでに整えられている
  • このツールを使う際の難しさの一つは、シンタックスハイライトされたコードブロックを処理すること

    • html-to-markdownがこうしたシナリオでどう動くのか気になる