ArchiveBox が進化中: セルフホスト型インターネットアーカイブの未来
(docs.sweeting.me)- ArchiveBox は、インターネットアーカイブをセルフホストできる新機能を紹介
- 最近の Archive.org への攻撃以降、ArchiveBox への関心が高まっている
- ArchiveBox は Archive.org の使命を支持しており、そのサービスが人類にとって重要な価値を提供していると強調している
公共アーカイブの限界
- 人々は、永久にアーカイブすることへの恐れから、アーカイブをためらうことがある
- 個人が重要だと考えるものをアーカイブできる権限が必要
- 現代のウェブ環境に合わせて、個人的および半私的なコンテンツをアーカイブできるソリューションが必要
アーカイブの重要性
- 家族、個人、企業のいずれも、自分たちにとって重要なコンテンツを保存したいと考えている
- 個人的なコンテンツのアーカイブにはセキュリティ上の課題があり、注意が必要
悪意のあるコンテンツ
- 公共アーカイブは、人種差別、暴力、ヘイトスピーチのようなコンテンツを保存してしまうことで、時に問題を引き起こすことがある
- このようなコンテンツをどのように保存するかについての検討が必要
ArchiveBox の新しいプラグインエコシステムの紹介
- ArchiveBox v0.8 は、プロジェクトの歴史上最大のアップデートであり、新しいプラグインエコシステムを導入
- さまざまなコミュニティ支援機能を提供するプラグインが含まれる
yt-dlpは YouTube、Soundcloud、YouKu などから動画、音声、字幕をダウンロードpapers-dlは DOI 番号を検出すると科学論文の PDF を自動ダウンロードgallery-dlは Flickr、Instagram などから写真ギャラリーをダウンロードforum-dlは古いフォーラムや深くネストされたコメントスレッドをダウンロードreadabilityは記事本文を .txt、.md、.epub に抽出aiはページのスクリーンショットとテキストをカスタムプロンプトとともに LLM に送り、応答を保存webhooksは一部の結果が保存されるたびに外部 API をトリガーし、Slack、N8N などへ ping を送る- このほかにも多くの機能がある
- プラグインシステムは pluggy と pydantic ライブラリを基盤としている
追加の開発項目
- 新しい REST API は django-ninja で構築
- 外部ストレージのサポートを追加
- コンテンツアドレス指定可能なストレージシステムの初期段階を導入
- バックグラウンドジョブシステムを追加
- シンプルな利用者向けの新ツール abx-dl を近日公開予定
"ArchiveBox は SQLite を使用してローカルファースト (Local-First) に設計されており、P2P は常にオプションです"
GN⁺ のまとめ
- ArchiveBox は、個人や企業が自分専用のインターネットアーカイブを構築できるよう支援するツールであり、最近の変化はそれをさらに強化している
- 公共アーカイブの限界を補い、個人的でセンシティブなコンテンツを安全に保存できる方法を提供
- プラグインエコシステムは多様な機能を提供し、ユーザー体験を向上させる
2件のコメント
ArchiveBox - セルフホスティングWebアーカイブツール
Hacker Newsの意見
ArchiveBoxの持続可能性と改善の必要性についての意見がある。コミュニティの参加が重要であり、単独開発者の難しさへの理解も示されている。
ArchiveBoxの新しいAPIとプラグインへの期待感がある。2年間アーカイブ用途で使用している。
grab-siteのようなツールは、WARCアーカイブの生成と保存に役立つ可能性がある。分散アーカイブのためのCDXインデックスと暗号署名のサポートが必要かもしれない。ArchiveBoxを使って古いボートに関する情報をアーカイブした経験が共有されている。過去のWebフォーラムが消えてしまったことへの惜しさも表明されている。
個人WebページのアーカイブのためにReadeck.orgを使用しており、ArchiveBoxの分散アーカイブの方向性に関心を持っている。
abx-dlの提供状況についての質問があり、パッケージ化を支援する意思も示されている。REST APIへの期待感があり、検索機能がないことを惜しんでいる。FTSインデックスを通じたクエリ機能が必要である。
ArchiveBoxを使ってWebサイトのアーカイブを試す必要性を感じている。Pinboardサブスクリプションのアーカイブ書き出し機能が動作していない。
アーカイブされたデータのMerkleツリー生成についての提案がある。データの真正性を証明する方法としてブロックチェーンを検討できる。
セルフホストのWebサイト変更監視システムについて推薦を求めている。Huginnを使用中だが、最新のJSベースのサイトには苦労している.