- HTMLをクリーンで読みやすいMarkdownに変換する強力なツール
- 複雑なフォーマットをサポートし、カスタムオプションやプラグインを通じて変換プロセスを完全に制御可能
- GolangライブラリまたはCLIコマンドを使用するか、オンラインデモやREST APIを通じて直接確認可能
主な機能
- Bold & Italic: 単語内でも太字と斜体をサポート
- List: 順序付きリストと順序なしリストの完全なネストをサポート
- Blockquote: 引用内に他の要素を含めることができ、ネストした引用もスムーズにサポート
- Inline Code & Code Block: バックティックと複数行のコードブロックを正しく処理し、コード構造を維持
- Link & Image: 複数行のリンクを正しくフォーマットし、空行に対するエスケープを追加
- Smart Escaping: 特殊文字を必要な場合にのみエスケープし、意図しないMarkdownレンダリングを防止
- Remove/Keep HTML: 特定のHTMLタグを削除または保持できる選択肢を提供
- Plugin: プラグインを簡単に拡張したり、機能強化のためにカスタムプラグインを作成可能
- カスタムロジックが必要な場合は、コードを書いて登録可能
- デフォルト設定が気に入らなければ、
PriorityEarlyを使って他より先にロジックを実行可能
Converterは複数のゴルーチンで使用でき、内部的にミューテックスを使用
1件のコメント
Hacker Newsの意見
Jina.aiの無料APIを使えば、認証やAPIキーなしでURLを取得し、Markdown文書を得られる
MITライセンスのこのツールが、Kindleで読むためのp2kやInstapaperなどの代替として使えるのではないかと気になっている
このライブラリをLambda関数で使い、URLをMarkdownに変換してS3に保存している
LLMにWebページのデータを渡すのに役立つ
ツールにn-gram重複除去機能があるとよい
Urlboxを使えば、Webページの正確なスクリーンショットとMarkdownを取得できる
RedditToMarkdownとurltomarkdown.comは、LLMやAIアプリの構築に役立つ
Kotlin/Springアプリで使える類似ライブラリを探している
このツールを使う際の難しさの一つは、シンタックスハイライトされたコードブロックを処理すること