5 ポイント 投稿者 GN⁺ 2024-10-22 | 1件のコメント | WhatsAppで共有
  • WebサイトをePubに変換するツール
  • WebサイトからHTMLページの一覧を抽出し、これをePub書籍としてコンパイルして、任意のeReaderに取り込める
  • JavaScriptを書ける上級ユーザーは、サイトの解析をカスタマイズできる追加パーサー定義を追加できる

対応サイト

  • Novel Update
  • Wuxia World
  • awesome-read-the-docs の大半のサイト
  • UL/OL要素を目次として使う、リンクテキストに正規表現を使う、またはクエリセレクターを使うカスタムサイト
  • あらかじめ定義されたタイトル(ヘッダー)要素と、次へ進むボタン(クリック可能)を使うカスタムWebアプリ

GN⁺のまとめ

  • Epublifier は、WebサイトのコンテンツをePub形式に変換し、eReaderで簡単に読めるようにするツール
  • このツールは特に Novel Update や Wuxia World のようなサイトをサポートしており、上級ユーザーは JavaScript を通じて解析をカスタマイズできる
  • このツールは、Webコンテンツをオフラインで読みたいユーザーに有用であり、似た機能を提供するツールとしては Calibre がある

1件のコメント

 
GN⁺ 2024-10-22
Hacker Newsの意見
  • Calibreは多くのサイトをサポートしている
  • この拡張機能は、他のスクレイパーと何が違うのかを説明しようとしている
    • 従来のスクレイパーがうまく動かないウェブサイトでEPubを生成するためのもの
    • 一般的なコマンドラインスクレイパーや他の拡張機能は、事前定義されたサイトでしか動作しない
    • 複雑な設定やコードが必要になることがある
    • 一部のサイトはJavaScriptを使って動的にテキストを生成または取得する
    • ブラウザ内で実行されるため、検知やブロックの可能性が低い
    • 繰り返し利用やバックグラウンド処理向けではない
    • サイトごとの設定なしでも簡単にスクレイピングできるようUIを提供している
    • 他のプログラムや拡張機能がすでに対応しているサイトでは、より良い性能は期待できない
    • 特定のサイトに縛られないため作成した
  • このプログラムの興味深い点は、任意のサイトからコンテンツを抽出するためのUIであること
  • すべてのセクションがアコーディオンの裏に隠れているサイトを処理できるなら素晴らしい
  • 似たようなものを作っている
    • ブログやウェブ小説など向けのウェブスクレイパーとePubパーサーを開発中
    • オフライン読書向けのPWA companion appも開発中
  • Paul GrahamのエッセイをePubで手に入れたくなることがある
  • 簡単なバージョンを作って、サーバーのファイルシステムにePubファイルを保存したことがある
    • Postlight Parserを使ってウェブサイトの簡略化されたドキュメントビューを提供
  • このツールは驚くべきツール
    • オフライン旅行のために大量のウェブページをキャッシュしていた時代は終わった
  • fanfiction.netをサポートしているのか気になる
  • AWS、VueJS、MDN、w3schools、realpython、betterstackのようなドキュメントの多いウェブサイトで動かしてみたくなるだろう