TimeCapsuleLLM: 1800〜1875年のデータのみで学習された大規模言語モデル

(github.com/haykgrigo3)

5 ポイント投稿者 GN⁺ 2026-01-13 | 1件のコメント | WhatsAppで共有

TimeCapsuleLLM は、特定の時期（1800〜1875年）の資料のみで学習された 大規模言語モデル（LLM） であり、現代的なバイアスを最小化し、当時の言語と世界観を再現することを目的としている
モデルは ロンドン地域の歴史文書、書籍、新聞、法律文書 などで構成されたデータセットを用いて、時代ごとの言語スタイルと語彙 を反映
初期バージョンは nanoGPT、その後のバージョンは Microsoft Phi 1.5 ベースで構築され、データ規模は最大 90GB、モデルのパラメータ数は最大 700M
Selective Temporal Training(STT) 方式を通じて、特定時期のデータのみを選別して学習し、現代の概念が含まれないよう設計
歴史的言語モデル研究と 時代別の人工知能による言語再現 の可能性を示す実験的プロジェクト

プロジェクト概要

TimeCapsuleLLMは 特定の時期と場所のデータのみで学習された言語モデル で、現代的なバイアスを減らし、その時代の語彙・文体・世界観 を再現することを目標としている
- 「AIが単に歴史上の人物を真似るのではなく、実際にその時代の言語を使うモデル」という概念を提示
初期バージョン（v0、v0.5）は Andrej KarpathyのnanoGPT をベースに、v1は Microsoft Phi 1.5 をベースに開発
モデルは Hugging Face で公開されている

モデルのバージョン別特徴

v0
- 約187MBのデータで学習
- 1800年代の語彙を使用するが、文章の大半は不自然な文になっている
- 現代の概念はまったく登場しない
v0.5
- 文法と句読点が改善され、ヴィクトリア朝の文体 を再現
- 事実誤り率が高く、OCRノイズ（例: “Digitized by Google”）が含まれる
v1
- 実際の歴史的事件や人物を結び付ける応答を生成
- 例: “It was the year of our Lord 1834” というプロンプトに対し、ロンドンの抗議活動と請願 に言及する文章を生成
v2mini-eval1 / eval2
- 90GBのうち15GBサンプルで10Kステップ学習
- トークナイザーの問題 により単語が分割されて出力されたが、修正後も文の構造は維持
- “Charles Dickens”, “Charles Darwin” などのプロンプトに対して19世紀風の叙述を生成

データセット構成

v2データセット
- 1800〜1875年のロンドンのテキスト90GB、合計 136,344件の文書
- まだ全体のトークナイズは完了しておらず、15GBサンプル がHugging Faceで公開
データの出典は パブリックドメインの書籍、新聞、法律文書など
バージョン別データサイズ
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB

Selective Temporal Training(STT)

STTは 特定の歴史時期のデータのみを使って学習する方法論
- 現代の概念の影響を排除し、その時代の知識と言語のみを反映
- TimeCapsuleLLM v0.5は1800〜1875年のデータのみで ゼロから学習（from scratch）
既存モデルを ファインチューニング（fine-tuning） する代わりに、完全に新規学習することで 現代情報の残存を除去

モデルサイズと学習環境

モデルのパラメータ数
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
学習環境
- v0/v0.5: RTX 4060 GPU、i5-13400F CPU、16GB RAM
- v1、v2mini-eval1: A100 SXM GPU をレンタルして使用

使用方法

プロジェクトは 歴史データの収集、整備、トークナイザー構築 に重点を置いている
段階別手順
1. 歴史テキストの収集: パブリックドメイン文書、書籍などから時代別テキストを確保
2. トークナイザーの作成: train_tokenizer.py を実行して vocab.json, merges.txt を生成
3. モデルの学習: nanoGPT または選択したアーキテクチャの文書を参照

バイアス分析

v2mini-eval1 の結果について、代名詞、地理的、時間的バイアス の可視化資料を提供
詳細な統計は v2_bias_report.json ファイルで確認可能

ライセンスと公開情報

MIT License で公開
GitHubで 1.2k Stars、41 Forks を記録
主要言語は Python 100%
最新リリース: v2mini-eval2 — London (1800–1875)

1件のコメント

GN⁺ 2026-01-13

Hacker Newsの意見

1900年を基準に最新モデルを訓練して、量子力学(QM)と相対性理論について質問してみたらどうか、という考え
もしモデルが少しでも正しい答えを出せるなら、LLMがより大きな知能へ向かう道であることを示す強力な証拠になるはず
- その時代にもすでにQMや相対性理論に近い概念はあった
  Michelson-Morley実験(1887)、Lorentz変換(1889)、光電効果(1887)などがその例
  William Cliffordは1889年に亡くなったが、空間の曲率で力と物質を説明しようとするアイデアを提示していた
  科学は突然現れるものではなく、当時の論文を総合すれば、こうした理論が自然に出てきた可能性もある
- 私はドイツ語の科学文献(1904年以前)を中心にモデルを訓練するプロジェクトを進めている
  OCR品質が悪く、ほとんど手作業で処理しなければならないが、700Mパラメータモデルなら自宅でも可能
  ただし本当の推論力を持たせるには70B級のモデルが必要
  また、ファインチューニング(fine-tuning)とRLの過程で2026年の知識が混ざらないようにするのが大きな課題
- 化学分野も興味深い実験対象
  19世紀後半は化学の黄金期であり、LLMが熱力学的予測や新たな仮説を提示できるのか気になる
- すでに似た試みをしたプロジェクトがある: history-llms
  関連する議論はHNスレッドで見られる
- Liら(2024)の論文 "Evaluating Large Language Models for Generalization and Robustness via Data Compression" も参考になる
  データ圧縮率(perplexity) を通じてモデルの汎化と頑健性を測定するアプローチが非常に印象的
「Who art Henry」を19世紀風の英語だと考えたのは、歴史的な言語感覚の不足の例に見える
実際にはどの時代でも文法的に正しくない
- 17〜19世紀のキリスト教書を多く読んだ立場からも、その表現が不自然だという点に同意する
- 「Who art Henry」がプロンプトなら、本当の19世紀風表現として何が適切なのか気になる
この実験がAGIの可能性を示すテストになり得るのか興味深い
ある時点(X年)以前のデータだけを与え、その後の発見(Y)を自力で導けるのか、という問い
- まずAGIの定義を明確にすべき
  一部の発見は既存アイデアの組み合わせで可能だが、相対性理論や量子力学には実験が不可欠だった
  たとえば当時のモデルは、数学的には一般相対論を展開できたとしても、水星の近日点移動を惑星Vulcanのせいだと考えた可能性が高い (VulcanのWikipedia)
- データ漏洩を完全に防ぐのはほぼ不可能
  誤分類された文書、注釈、メタデータなどから知識が流入するリスクが大きい
- 根本的に、古いデータだけではSoTAモデルを訓練するには量が足りない
- この実験を本当に成立させるにはGPT-5級のモデルが必要
  膨大なテキスト、大規模なパラメータ、そして19世紀風のRLHFプロセスが求められる
- こうした実験は、LLMが創造的思考をしているのか、単なる再生にすぎないのかを見極める本当の試験になるはず
1800〜1875年のデータで訓練したモデルと1800〜2025年のデータで訓練したモデルを比較し、
2つの確率分布の差を使って2040年を予測しようというアイデアを提示
実際には正確な予測は難しいだろうが、確率分布の補間/外挿の実験としては面白そう
- もしかするとそれは単にGen Alpha世代のスラングのように聞こえるだけかもしれない、という冗談も出た
興味深い概念だが、当時の記録データは知識エリート中心に偏っている
現代のように誰もが記録を残していた時代ではない
現代のモデルは数十TBのテキストで訓練されるが、19世紀のデータははるかに少なく、多様性も不足している
そのため、「1834年に何があったか？」のような質問に新聞記事調で答えるのは自然な結果
- しかし、この一貫した偏りはむしろ利点になり得る
  今のLLMはあまりに多くの人の考えが混ざっていて、ノイズの多い出力を出すこともある
  特定時代の一貫した視点で訓練されたモデルは、予測可能な応答スタイルを持ち得る
- 人為的な制約によって露わになる偏りは、むしろ最新モデルの隠れたバイアスを明らかにするのに役立つ
- 現代モデルは英語中心で、西洋的で、1990年代以降の視点に偏っている
  さらにアラインメント(alignment) の過程で提供者の価値観が反映される
  一方で、過去データベースのモデルは時代の偏りを「偶然」反映することになる
少なくともこうしたモデルなら絵文字の氾濫は防げそう
ただしトークナイゼーションがどう変わるのかは気になる
コーディング知識はないだろうが、現代のLLMと組み合わせて19世紀風のコード説明を生成できるかもしれない
過去のスタイル転移モデルのようにレイヤーを混ぜる方法が可能か考えている
- 「単に2つのモデルを互いに対話させればいいのでは？」という提案もあった
情報化以前の文書だけでモデルを訓練し、そのモデルに**『コンピュータとは何か』を教えてみる実験が可愛らしく感じられる
ただ、現在の出力はChatGPTよりもMarkov chainレベル**に近い
最近HNに投稿された別の「タイムロックLLMプロジェクト」を思い出す
成果物は洗練されているが、誤用と誤解をどう防ぐかを考えているという
関連スレッド参照
もしこのモデルが一貫した出力を出せるなら、LLM訓練に著作権付き資料が必須だという主張を反証できるはず
ただ、現時点ではそこまでの水準ではなさそう
- 参考までに、公開データだけでもかなり良いモデルを作った事例がある
  The Common Pile v0.1 は8TBの公開テキストで7Bパラメータモデルを構築した
私も似た実験をしてみた: transformerプロジェクト
聖書、ドン・キホーテ、カフカなど異なる文献で個別モデルを訓練した
（歌詞生成器や翻訳機もあったが、品質はいまひとつだった）

TimeCapsuleLLM: 1800〜1875年のデータのみで学習された大規模言語モデル

プロジェクト概要

モデルのバージョン別特徴

データセット構成

Selective Temporal Training(STT)

モデルサイズと学習環境

使用方法

バイアス分析

ライセンスと公開情報

関連記事

1件のコメント

Hacker Newsの意見