大規模LLMの重みは歴史の一部です
(antirez.com)- 毎年、多くの古いWebページが消えており、それは永遠に失われた歴史である
- Internet Archiveは現代史における最も価値ある資産の一つである
- しかし、複数の企業や機関がアーカイブの存続と保存を困難にしている
- Internet Archive本部が古い教会の建物にあるという事実は象徴的であり、これを神聖な場所として考えるべきである
- 昔のプログラマたちがZ80アセンブリで作業していた時代、初期インターネット世代の議論、90年代に形成されたサブカルチャーなどが徐々に消えつつある
- 個人ブログの消失 → 個人の人生と意識の記録が失われる
- 科学論文、デジタルアート、ビデオゲーム、気候データ、初期のニュースソースなども徐々に失われている
- 出版社やWebサイトが消えることで、こうした情報が永遠に失われることが多い
- すべての情報を保存しようとする試みは、現実的には失敗する可能性が高い
- 経済的利益のない状況で莫大なコストが発生するため
- 現代社会は、お金にならないことに資源を投じにくい状態にある
- LLM(大規模言語モデル)の情報圧縮能力は完璧ではないが、少なくとも最小限の保存の役割を果たせる
- DeepSeek V3はインターネットを非可逆圧縮したバージョンとして、すでに公開され利用されている
- すべての損失を取り戻すことはできないが、Internet Archiveのような機関を支援すべきである
- 同時に重要な課題は、公開されたLLMの重みが失われないよう保存することである
- Internet ArchiveのコンテンツがLLMの事前学習セットに含まれるよう保証しなければならない
2件のコメント
Hacker Newsの意見
「Big LLMs」というタイトルが気に入った。いまや大きなLLMと小さなLLM、そしておそらく中くらいのLLMを区別している。「Tall LLMs」「Grande LLMs」「Venti LLMs」と呼ぶことを提案したい
Internet Archiveは現代史において最も価値のある存在のひとつと見なされるべきだ。しかし多くの企業や団体が、アーカイブの存続と蓄積をますます困難にしている。アーカイブ本部がかつて教会だった場所にあるのも理解できる。神聖な場所と考えるにはこれ以上ないやり方だ。ヨーロッパを拠点とするInternet Archiveを作ろうという積極的な取り組みもある
Mozillaのllamafileプロジェクトは、歴史的な目的のためにLLMを保存できるよう設計されている。重みと必要なすべてのソフトウェアを、決定論的で依存関係のない単一ファイルの実行可能ファイルとして提供している。llamafileを保存しておけば、50年後でも今日と同じ出力を得られる。未来の世代のために、この特別な瞬間がアーカイブされるようMozillaを支援してほしい
地図が領土そのものではないのと同じように、要約もコンテンツそのものでも図書館の実際の本でもない。投稿や本やフォーラムを読みたいなら、私はまさにそれを読みたい。神秘的な数学アルゴリズムで作られた模造品ではなく
映画ポスターへのリンク付き映画テーブルをtext-davinciで作っていた古き良き時代が懐かしい。たいていはs3バケットの画像URLを生成していた。リンクはいつも機能していた
インターネット上のすべてが永遠にアーカイブされないことは問題ないと思う。昔は人々は紙に書いていたし、その大半はアーカイブされなかった。ある時点でただ消えていった。祖父母からたくさんの箱に入ったノートや本や文書を受け継いだ。大半は私には意味がなかった。多くを捨てることになり、さまざまな文書を数千ページだけ残した。ほかのものは永遠に失われた。そしてそれでたぶんいいのだ。アーカイブはとても重要だが、今もっとも難しいのは何をアーカイブするかを選ぶことだ。毎秒インターネットに追加されるコンテンツが多すぎて、その一部しかアーカイブできない
複数の異なるLLMを使って、インターネットの学習データにある人気の高い共通部分集合のおおまかな版を再構築できるのか気になる。そういうものに関する数学論文へのポインタを知っている人がいないかと思う
これは私にはあまり大きな意味を持たない。出典のない噂の歴史的価値は限られているし、Web上にある重み利用可能なモデルの大半はCommon Crawlベースなので、保存のために利用可能に見える
LLMが人類の知識を保存するという物語は好きだ。個人的には、すべての知識と情報が簡単にアクセスできて利用可能であってほしい。著作権者が一貫したビジネス判断として、あらゆるものを有料化したり登録の向こう側に隠したりしようとしているにもかかわらず、大多数の人も同じ気持ちを共有していると確信している。広告によって世界の情報を整理し繁栄するGoogleを嫌う人は多いが、長期的には情報はさまざまなインターネットのデータ形式で整理され保存される。結局のところ、GoogleはLLMの重みを可能にしたTransformerをもともと設計しており、これもいまや歴史の一部だ
科学論文やそのプロセスは、出版社が失敗しWebサイトが閉鎖されることで永遠に失われる。大手科学出版社が(少なくとも今この時代に)失敗するとは思わない。彼らは裕福だ
「要約はコンテンツそのものでも、図書館にある実際の本でもない。投稿、本、フォーラムを読みたいなら、まさにそれを読みたい。神秘的な数学アルゴリズムで作られた模造品ではない」
これには同意します。