32 ポイント 投稿者 xguru 2024-02-14 | 3件のコメント | WhatsAppで共有
  • あらゆるWebサイトをオフラインで閲覧できるよう保存するオープンソース
  • 追加したURL、ブラウザの閲覧履歴(拡張機能を提供)、ブックマーク、RSS、Pocket/Pinboardなどから取り込み、HTML/JS/PDF/メディアなどを保存
    • 1件ずつ追加することも、定期的に取り込むようスケジュールすることも可能
  • Linux、macOS、Windows(WSL2)にインストールするか、Dockerで実行し、CLIツール/Webアプリ/Pythonライブラリ/単発コマンドなどとして利用可能
  • URLのスナップショットを複数の冗長な形式で保存し、ページに含まれるすべてのコンテンツを検出してフォルダに抽出
    • HTML/あらゆるWebサイト : オリジナルのHTML+CSS+JS、singlefile HTML、スクリーンショット PNG、PDF、WARC、タイトル、本文テキスト、favicon、headers、…
    • ソーシャルメディア/ニュース : 記事本文 TXT、コメント、タイトル、保存データ、画像、…
    • YouTube/SoundCloud/etc. : MP3/MP4s、字幕、メタデータ、サムネイル、…
    • Github/Gitlab/etc. リンク : GITソースコードのクローン、README、画像、…
  • 独自フォーマットを使わず、Chrome、wget、yt-dlp などの標準ツールを使って通常のファイル/フォルダに保存。つまり ArchiveBox がなくてもすべてのデータを読み取れる
  • 保存するURLを archive.org に送信して別途保存をリクエスト可能(重複保管、ローカル専用モードで無効化可能)

3件のコメント

 
ninebow 2024-02-21

最近Obsidianを使ってみながら、Instapaper -> ObsidianプラグインでMarkdownとして保存してみているのですが、意外ときれいにうまく取り込めないんですよね。
AWS LambdaにGo-Readabilityを1つ立てておいて、面倒でそのまま止まっていたのですが、こういうツールとうまく連携できるものがあるのかも調べてみないとですね。ありがとうございます!

 
galadbran 2024-02-17

私は「アーカイブ」というキーワードを見ると、つい詳しく見てしまいます。過去のGeekNews記事の中で関連するものです。

 
galadbran 2024-02-17

あっ、Shori の GeekNews リンクは https://ja.news.hada.io/topic?id=577 です。