ArchiveBox - セルフホスト型Webアーカイブツール
(archivebox.io)- あらゆるWebサイトをオフラインで閲覧できるよう保存するオープンソース
- 追加したURL、ブラウザの閲覧履歴(拡張機能を提供)、ブックマーク、RSS、Pocket/Pinboardなどから取り込み、HTML/JS/PDF/メディアなどを保存
- 1件ずつ追加することも、定期的に取り込むようスケジュールすることも可能
- Linux、macOS、Windows(WSL2)にインストールするか、Dockerで実行し、CLIツール/Webアプリ/Pythonライブラリ/単発コマンドなどとして利用可能
- URLのスナップショットを複数の冗長な形式で保存し、ページに含まれるすべてのコンテンツを検出してフォルダに抽出
- HTML/あらゆるWebサイト : オリジナルのHTML+CSS+JS、singlefile HTML、スクリーンショット PNG、PDF、WARC、タイトル、本文テキスト、favicon、headers、…
- ソーシャルメディア/ニュース : 記事本文 TXT、コメント、タイトル、保存データ、画像、…
- YouTube/SoundCloud/etc. : MP3/MP4s、字幕、メタデータ、サムネイル、…
- Github/Gitlab/etc. リンク : GITソースコードのクローン、README、画像、…
- 独自フォーマットを使わず、Chrome、wget、yt-dlp などの標準ツールを使って通常のファイル/フォルダに保存。つまり ArchiveBox がなくてもすべてのデータを読み取れる
- 保存するURLを archive.org に送信して別途保存をリクエスト可能(重複保管、ローカル専用モードで無効化可能)
3件のコメント
最近Obsidianを使ってみながら、Instapaper -> ObsidianプラグインでMarkdownとして保存してみているのですが、意外ときれいにうまく取り込めないんですよね。
AWS LambdaにGo-Readabilityを1つ立てておいて、面倒でそのまま止まっていたのですが、こういうツールとうまく連携できるものがあるのかも調べてみないとですね。ありがとうございます!
私は「アーカイブ」というキーワードを見ると、つい詳しく見てしまいます。過去のGeekNews記事の中で関連するものです。
あっ、Shori の GeekNews リンクは https://ja.news.hada.io/topic?id=577 です。