- TimeCapsuleLLM は、特定の時期(1800〜1875年)の資料のみで学習された 大規模言語モデル(LLM) であり、現代的なバイアスを最小化し、当時の言語と世界観を再現することを目的としている
- モデルは ロンドン地域の歴史文書、書籍、新聞、法律文書 などで構成されたデータセットを用いて、時代ごとの言語スタイルと語彙 を反映
- 初期バージョンは nanoGPT、その後のバージョンは Microsoft Phi 1.5 ベースで構築され、データ規模は最大 90GB、モデルのパラメータ数は最大 700M
- Selective Temporal Training(STT) 方式を通じて、特定時期のデータのみを選別して学習し、現代の概念が含まれないよう設計
- 歴史的言語モデル研究と 時代別の人工知能による言語再現 の可能性を示す実験的プロジェクト
プロジェクト概要
- TimeCapsuleLLMは 特定の時期と場所のデータのみで学習された言語モデル で、現代的なバイアスを減らし、その時代の語彙・文体・世界観 を再現することを目標としている
- 「AIが単に歴史上の人物を真似るのではなく、実際にその時代の言語を使うモデル」という概念を提示
- 初期バージョン(v0、v0.5)は Andrej KarpathyのnanoGPT をベースに、v1は Microsoft Phi 1.5 をベースに開発
- モデルは Hugging Face で公開されている
モデルのバージョン別特徴
- v0
- 約187MBのデータで学習
- 1800年代の語彙を使用するが、文章の大半は不自然な文になっている
- 現代の概念はまったく登場しない
- v0.5
- 文法と句読点が改善され、ヴィクトリア朝の文体 を再現
- 事実誤り率が高く、OCRノイズ(例: “Digitized by Google”)が含まれる
- v1
- 実際の歴史的事件や人物を結び付ける応答を生成
- 例: “It was the year of our Lord 1834” というプロンプトに対し、ロンドンの抗議活動と請願 に言及する文章を生成
- v2mini-eval1 / eval2
- 90GBのうち15GBサンプルで10Kステップ学習
- トークナイザーの問題 により単語が分割されて出力されたが、修正後も文の構造は維持
- “Charles Dickens”, “Charles Darwin” などのプロンプトに対して19世紀風の叙述を生成
データセット構成
- v2データセット
- 1800〜1875年のロンドンのテキスト90GB、合計 136,344件の文書
- まだ全体のトークナイズは完了しておらず、15GBサンプル がHugging Faceで公開
- データの出典は パブリックドメインの書籍、新聞、法律文書など
- バージョン別データサイズ
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB
Selective Temporal Training(STT)
- STTは 特定の歴史時期のデータのみを使って学習する方法論
- 現代の概念の影響を排除し、その時代の知識と言語のみを反映
- TimeCapsuleLLM v0.5は1800〜1875年のデータのみで ゼロから学習(from scratch)
- 既存モデルを ファインチューニング(fine-tuning) する代わりに、完全に新規学習することで 現代情報の残存を除去
モデルサイズと学習環境
- モデルのパラメータ数
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
- 学習環境
- v0/v0.5: RTX 4060 GPU、i5-13400F CPU、16GB RAM
- v1、v2mini-eval1: A100 SXM GPU をレンタルして使用
使用方法
- プロジェクトは 歴史データの収集、整備、トークナイザー構築 に重点を置いている
- 段階別手順
- 歴史テキストの収集: パブリックドメイン文書、書籍などから時代別テキストを確保
- トークナイザーの作成:
train_tokenizer.py を実行して vocab.json, merges.txt を生成
- モデルの学習: nanoGPT または選択したアーキテクチャの文書を参照
バイアス分析
- v2mini-eval1 の結果について、代名詞、地理的、時間的バイアス の可視化資料を提供
- 詳細な統計は
v2_bias_report.json ファイルで確認可能
ライセンスと公開情報
- MIT License で公開
- GitHubで 1.2k Stars、41 Forks を記録
- 主要言語は Python 100%
- 最新リリース: v2mini-eval2 — London (1800–1875)
1件のコメント
Hacker Newsの意見
1900年を基準に最新モデルを訓練して、量子力学(QM)と相対性理論について質問してみたらどうか、という考え
もしモデルが少しでも正しい答えを出せるなら、LLMがより大きな知能へ向かう道であることを示す強力な証拠になるはず
Michelson-Morley実験(1887)、Lorentz変換(1889)、光電効果(1887)などがその例
William Cliffordは1889年に亡くなったが、空間の曲率で力と物質を説明しようとするアイデアを提示していた
科学は突然現れるものではなく、当時の論文を総合すれば、こうした理論が自然に出てきた可能性もある
OCR品質が悪く、ほとんど手作業で処理しなければならないが、700Mパラメータモデルなら自宅でも可能
ただし本当の推論力を持たせるには70B級のモデルが必要
また、ファインチューニング(fine-tuning)とRLの過程で2026年の知識が混ざらないようにするのが大きな課題
19世紀後半は化学の黄金期であり、LLMが熱力学的予測や新たな仮説を提示できるのか気になる
関連する議論はHNスレッドで見られる
データ圧縮率(perplexity) を通じてモデルの汎化と頑健性を測定するアプローチが非常に印象的
「Who art Henry」を19世紀風の英語だと考えたのは、歴史的な言語感覚の不足の例に見える
実際にはどの時代でも文法的に正しくない
この実験がAGIの可能性を示すテストになり得るのか興味深い
ある時点(X年)以前のデータだけを与え、その後の発見(Y)を自力で導けるのか、という問い
一部の発見は既存アイデアの組み合わせで可能だが、相対性理論や量子力学には実験が不可欠だった
たとえば当時のモデルは、数学的には一般相対論を展開できたとしても、水星の近日点移動を惑星Vulcanのせいだと考えた可能性が高い (VulcanのWikipedia)
誤分類された文書、注釈、メタデータなどから知識が流入するリスクが大きい
膨大なテキスト、大規模なパラメータ、そして19世紀風のRLHFプロセスが求められる
1800〜1875年のデータで訓練したモデルと1800〜2025年のデータで訓練したモデルを比較し、
2つの確率分布の差を使って2040年を予測しようというアイデアを提示
実際には正確な予測は難しいだろうが、確率分布の補間/外挿の実験としては面白そう
興味深い概念だが、当時の記録データは知識エリート中心に偏っている
現代のように誰もが記録を残していた時代ではない
現代のモデルは数十TBのテキストで訓練されるが、19世紀のデータははるかに少なく、多様性も不足している
そのため、「1834年に何があったか?」のような質問に新聞記事調で答えるのは自然な結果
今のLLMはあまりに多くの人の考えが混ざっていて、ノイズの多い出力を出すこともある
特定時代の一貫した視点で訓練されたモデルは、予測可能な応答スタイルを持ち得る
さらにアラインメント(alignment) の過程で提供者の価値観が反映される
一方で、過去データベースのモデルは時代の偏りを「偶然」反映することになる
少なくともこうしたモデルなら絵文字の氾濫は防げそう
ただしトークナイゼーションがどう変わるのかは気になる
コーディング知識はないだろうが、現代のLLMと組み合わせて19世紀風のコード説明を生成できるかもしれない
過去のスタイル転移モデルのようにレイヤーを混ぜる方法が可能か考えている
情報化以前の文書だけでモデルを訓練し、そのモデルに**『コンピュータとは何か』を教えてみる実験が可愛らしく感じられる
ただ、現在の出力はChatGPTよりもMarkov chainレベル**に近い
最近HNに投稿された別の「タイムロックLLMプロジェクト」を思い出す
成果物は洗練されているが、誤用と誤解をどう防ぐかを考えているという
関連スレッド 参照
もしこのモデルが一貫した出力を出せるなら、LLM訓練に著作権付き資料が必須だという主張を反証できるはず
ただ、現時点ではそこまでの水準ではなさそう
The Common Pile v0.1 は8TBの公開テキストで7Bパラメータモデルを構築した
私も似た実験をしてみた: transformerプロジェクト
聖書、ドン・キホーテ、カフカなど異なる文献で個別モデルを訓練した
(歌詞生成器や翻訳機もあったが、品質はいまひとつだった)