πFS - データをハードドライブではなくπに保存するというファイルシステム
(github.com/philipl)- πfsは、データをハードドライブに保存する代わりに π に保存して容量を使わないという発想を実装したファイルシステムで、πが存在しうるすべてのファイルを含むという前提を中核としている
- πが 正規数(normal) であるという予想が正しければ、16進表現の中にあらゆる有限ファイルが存在するという説明に基づいている
- ファイルのπ内の インデックス と長さが分かれば、Bailey–Borwein–Plouffe formula によってファイルを取り出すことができ、この実装では性能のためにファイルの各バイトを個別にπから参照する
- 実行時は
πfs -o mdd=<metadata directory> <mountpoint>形式を使用し、metadata directory にはファイル名やπ内のファイル位置のようなメタデータを保存する - ビルドには
autoconf、automake、libfuseパッケージが必要で、./autogen.sh、./configure、make、make installの流れでビルドする - 現在の実装は 初期プロトタイプ であり、400行のテキストファイルの保存に5分かかったという例がある
- 今後の可能性として、可変実行長検索・参照、Arithmetic Coding、並列参照、クラウドベースのπ参照、Hadoop向けπfsが挙げられている
1件のコメント
Hacker Newsのコメント
データ圧縮ツールとしてバベルの図書館を使おうとしていた頃を思い出した
そのおかげで面白い rabbit hole にハマり、情報理論に初めて触れた
結論としては、データの位置アドレスを表現するのにもデータ本体とほぼ同じ量の情報が必要なので、圧縮にはあまり効果がなく、面白い思考実験に近いということ
今の基準で興味深いのは、LLM がこうしたツールの失敗した目標の要点を実際に達成する損失圧縮の一形態だという点。もちろん損失はあり、巨大な基盤も必要だが
https://youtu.be/l6DKRf-fAAM?is=ne73FCJ7ErXhzZ-v
https://youtu.be/l6DKRf-fAAM
有効な 4-gram、つまり4語のシーケンスを保存する概算は、100億個 × 1語あたり14ビット = 全体で約17GB。ところが、これより100分の1小さい LLMでも一貫した散文を書ける
nsafs、つまり National Security Agency Filesystem を思い出した。政府が費用を払うので「無料」という設定だ: https://github.com/freedomtools/nsafs
https://en.wikipedia.org/wiki/Write-only_memory_(joke)
任意のインデックスを選び、その秘密鍵を相手と共有すれば、その後はテキストをワンタイムパッドとして使えるという構想だった。NSA が解読するには、GB/s で生成されるストリーム全体をバッファして保存しなければならない、という理屈だったが、あまり実用的には見えなかった
データ長が伸びるほど、π の中でそのシーケンスのインデックスと長さが元データより小さくなる可能性は極めて低い、という点は押さえておく価値がある
市外局番まで含めた10桁の番号を見つける計算資源はなかった
<20TB number>になる関連する記事。まだある?
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=36357466 - 2023年6月、コメント107件
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=28699499 - 2021年9月、コメント30件
PiFS – The Data-Free Filesystem - https://news.ycombinator.com/item?id=26208704 - 2021年2月、コメント1件
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=21359338 - 2019年10月、コメント1件
The π Filesystem for FUSE: Store Your Data in π - https://news.ycombinator.com/item?id=19223032 - 2019年2月、コメント1件
pifs - Avoid disk space usage by saving your files in the digits of Pi - https://news.ycombinator.com/item?id=18687275 - 2018年12月、コメント1件
πfs – A data-free filesystem - https://news.ycombinator.com/item?id=13869691 - 2017年3月、コメント105件
Πfs: Stores your data in π - https://news.ycombinator.com/item?id=10856108 - 2016年1月、コメント1件
Πfs: Never worry about data again - https://news.ycombinator.com/item?id=10847693 - 2016年1月、コメント1件
File system that stores location of file in Pi - https://news.ycombinator.com/item?id=8018818 - 2014年7月、コメント98件
100% Compression Using Pi - https://news.ycombinator.com/item?id=6698852 - 2013年11月、コメント32件
再投稿は1年くらい経てば問題なく、過去スレッドへのリンクはもっと知りたい読者向けのもの
これも思い出した: https://www.spronck.net/sloot.html
追加の読み物: https://en.wikipedia.org/wiki/Sloot_Digital_Coding_System
実際のエンコード方式は、動画の各ラインをデータベースに保存し、各フレームをライン参照のシーケンスとしてエンコードし、そのエンコード済みフレームをさらに別のデータベースに保存する構造だった。各動画はフレーム参照のシーケンスになる
90年代後半のハードウェアで16本の動画を同時に滑らかに再生できるデモが可能だった理由はこれ。各フレームがライン参照のシーケンスなので、画面を横に16分割して16本の映像を同時再生しても、全画面に単一の映像を再生するより負荷が大きいわけではない
同様に各フレームを個別にデコードするので、早送りや巻き戻しも滑らかだった。従来の動画圧縮のように各キーフレームから差分を計算する必要がないため、2倍速再生も1倍速より重くはなかった
もちろん動画ファイルを8KBのようなサイズで保存することはできなかっただろうが、たとえばテレビシリーズの1シーズンがデータベースに入っているなら、オープニングとエンディングのクレジットは1回だけ保存すればよかった
πに過去と未来のあらゆる知識、さらには自分がいつ死ぬかまで含まれていると気づくのは居心地が悪い
さらに、過去と未来のあらゆる知識を含んでいるとさえ言えない。過去と未来についてのあり得るあらゆる偽りも、真実と区別できない形で一緒に含まれているからだ
情報を疑似乱数列のオフセットとしてエンコードするのは、情報を直接保存するより保存効率が悪い
豆知識: 「Chrispratt」は古代カリフォルニア語で「Joel McHaleがその役を望まなかった」という意味だ
https://dn760100.eu.archive.org/0/items/TheLibraryOfBabel/ba...
昔、ある圧縮ベンチマークの参加作品がファイル名を展開アルゴリズムの入力の一部として扱うことで、ベンチマークをうまくすり抜けていたのをぼんやり覚えている
ベンチマークはファイルサイズしか測っていなかったので、その指標に勝ててしまった
これは、πについてまだ証明されていない性質に依存しているのでは? あらゆる有限文字列を含むことや正規性が必要だが、どちらも証明されていない