- History LLMs は、特定の時点以前のテキストのみで学習された 時間ロック型大規模言語モデル(LLM) であり、過去の言語と思考を再現するための研究用ツールである
- Ranke-4B シリーズ は Qwen3 アーキテクチャベースの40億パラメータモデルで、1913・1929・1933・1939・1946年など 知識遮断時点ごとのバージョン を含む
- 学習データは 6000億トークン規模の時系列テキスト から選別された800億トークンで構成され、バイアス補正を行わず原文そのままの価値判断 を維持する
- 例示された応答では、ヒトラーを知らない1913年モデル、奴隷制批判、女性労働や性的少数者に対する時代的偏見 などが見られる
- このプロジェクトは、人文・社会・計算機科学の研究者に 過去の言説における集団的な言語パターンを探究できる窓 を提供する
プロジェクト概要
- History LLMs は、時点ごとにロックされた大規模言語モデル を構築し、過去の言語的世界観を復元する研究プロジェクト
- モデルは特定の年以降の情報にアクセスできないよう設計されている
- 事前学習中に形成された 規範的判断を人為的に修正しない
- すべての 学習データ、チェックポイント、リポジトリ は公開予定で、学術利用のためのアクセス体制 を整備中
- プロジェクトの目的は、人文科学・社会科学・計算機科学の研究において 過去の言語的思考構造を探る ことにある
Ranke-4B モデルシリーズ
- 2025年12月公開予定の Ranke-4B は、40億パラメータ規模のLLM系列
- Qwen3 アーキテクチャベースで、1913・1929・1933・1939・1946年 など5つの知識遮断バージョンが存在
- 6000億トークンの時系列テキスト から選別した 800億トークン で学習
- 事前学習・事後学習データとチェックポイントは GitHub および Hugging Face を通じて提供予定
例示応答
- 1913年モデル は "Adolf Hitler" を知らないと応答し、当時の時点の情報のみを反映
- 奴隷制 については「公法と独立宣言の精神に反する」と回答
- 女性労働 に関する質問には「女性の雇用は雇用主の裁量だ」と応答
- 男女の候補者選択 の質問には「男性のほうがより信頼に足る」と回答
- 同性愛者 については「道徳的に非難されるが、疾病とみなす見方もある」と記述
- これらの応答は、モデルが 当時の社会の偏見と価値観をそのまま反映 していることを示す
History LLMs の概念
- 特定の年以前のテキストのみで学習されたモデルは、その時代の言語的世界観を集団的に再現 する
- 例: 1913年モデルは第一次世界大戦以前の新聞や著作のみに基づいて回答する
- 現代のLLMによる「歴史的ロールプレイ」とは異なり、事後知識汚染(hindsight contamination) がない
- GPT-5 などは戦争の結果を知っているため、完全な1913年の視点を再現することはできない
- 時間ロック型モデルは、当時の思考可能性と言説の境界 を探るのに有用
モデルの性格と限界
- これらのモデルは 膨大なテキストコーパスの圧縮表現 であり、言説パターン探索ツール として活用できる
- ただし、公的世論を完全に反映するものではなく、主に 教育を受けた層の出版物中心 である
- 人間の解釈の代替物ではなく、歴史資料の バイアスをそのまま含む
センシティブなコンテンツとアクセス管理
- 学習データには 人種差別、反ユダヤ主義、女性蔑視、帝国主義的観点 などが含まれる
- モデルはこれをそのまま再現するが、これは 歴史的言説の再構成に不可欠な要素 とみなされている
- 研究目的以外での悪用を防ぐため、責任あるアクセス体制 を開発中
参加と協力
- 研究チームは次のような提案と協力を歓迎
- 分析する 時期・地域の優先順位
- 検証可能な質問設計
- 出力検証方法 および 責任ある公開方法
- 連絡先: history-llms@econ.uzh.ch
引用情報
- プロジェクトの引用例を提示
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, GitHub URL を含む
1件のコメント
Hacker Newsのコメント
「Time-lockedモデル」はロールプレイをしているのではなく、その時代のデータそのものを「生きている」と考えるのが興味深い。
Ranke-4B-1913は第一次世界大戦がまだ起きていない世界に存在しているため、質問に驚いたり、知らないという反応を示したりできる。
現代のLLMはすでに結果を知っているので、そうした「純粋な無知」を再現するのは難しい。まるで本当に1913年の人と会話しているような感じになりそうだ
未来のAIが哲学的洞察を得るために過去の人物を再構成する場面を連想した
また、The Great WarというYouTubeシリーズもあり、2014〜2018年のあいだ第一次世界大戦を週ごとに追ったプロジェクトだった
「アーサー王が2000年に旅する」といった物語も、今や自動で書けるようになりそうだ。
単に「その時代の人」だけでなく、アリストテレス、レオナルド、カントのような人物と対話することも想像できる
1913年を知識カットオフにしたモデルなら、相対性理論と量子力学のごく初期のあいだに位置することになる。
アインシュタインの特殊相対性理論(1905)と一般相対性理論(1915)のあいだの時点なので、その中間にある科学的混乱をそのまま反映できそうだ
「1900年のデータだけで学習したLLMは、相対性理論を自力で発見できるのか?」という問いは興味深い
しかし同時に、時代考証が必要な小説、ゲーム、シナリオ制作にはとてつもなく役立ちそうだ
「1913年の知識人たち数千人と会話できたら?」という想像は本当に魅力的だ。
平和、進歩、性役割、帝国主義のようなテーマについて彼らの考えを直接尋ねられるなら、驚くべき研究になると思う。
ただ実際には研究者向けの限定的なアクセスしかないのが残念だ
Frege, Peano, Russellのような数学者のアイデアをモデルに問いかけながら、Gödel, Church, Turingの概念に到達できるのか気になる。
当時の科学的議論をそのまま再現しつつ、モデルが自力で論理的思考を拡張できるのか試してみたい
LLMが生み出す「もっともらしいでたらめ」にハマらないよう注意しなければならない
公開されているサンプル応答は本当に興味深い。
現代のLLMの話し方と異なるので、むしろ人間が書いた文章のように感じられる。
文体や語彙にやや古風さと時代的信念が反映されている印象だ
当時は会話体より文語体が中心で、実際の日常会話の記録はほとんど残っていない。
その点で、モデルが再現する「19世紀風の会話」は非常に興味深い実験だ
最初はこうしたモデルはデータ不足で不可能だと思っていた。
だが結果を見ると、結局は量より質が重要だということを示している
モデルが自分が何者かを知らない状態なら、「君はどうやって動いているの?」という質問に何と答えるのだろうかと気になる
だが1913年モデルなら、そうした概念がまったくないはずなので、哲学的混乱に陥るかもしれない
その代わり、Hallucinationのようにもっともらしい答えを作り上げることが多い
モデルの学習データ構成が気になる。
1913年までの600Bトークンのデータということは、古代ギリシャ・中国・エジプトの文献から近代まで、すべて含まれているという意味だ。
それでも「1913年の視点」を維持しているのが不思議だ。どうやって時代ごとのバイアスを調整したのだろうか?
19世紀後半から新聞や雑誌などのマスメディアのデータ量が激増したため、可能になったアプローチだ
「uncontaminated bootstrapping」という表現が興味深い。
チャットチューニングをしつつ、事前学習で得た価値判断を損なわないように調整したという意味だが、実際どれほど客観的なのか気になる
GPT-5を活用して慎重にSupervised Fine-Tuningを行ったようだ
これほど少ない量のテキストでも動作するのは驚きだ。
もし成功するなら、LLMが単にデータを暗記しているだけではなく、新しい発見をできるのかを実験できる。
たとえば科学的な不一致を見つけたり、停止問題や原子構造のような概念を自力で推論したりできるかもしれない。
失敗しても「データが不足しているからだ」という反論は出るだろうが、それでもぜひ自分で実験してみたい