1 ポイント 投稿者 GN⁺ 2025-12-19 | 1件のコメント | WhatsAppで共有
  • History LLMs は、特定の時点以前のテキストのみで学習された 時間ロック型大規模言語モデル(LLM) であり、過去の言語と思考を再現するための研究用ツールである
  • Ranke-4B シリーズ は Qwen3 アーキテクチャベースの40億パラメータモデルで、1913・1929・1933・1939・1946年など 知識遮断時点ごとのバージョン を含む
  • 学習データは 6000億トークン規模の時系列テキスト から選別された800億トークンで構成され、バイアス補正を行わず原文そのままの価値判断 を維持する
  • 例示された応答では、ヒトラーを知らない1913年モデル奴隷制批判女性労働や性的少数者に対する時代的偏見 などが見られる
  • このプロジェクトは、人文・社会・計算機科学の研究者に 過去の言説における集団的な言語パターンを探究できる窓 を提供する

プロジェクト概要

  • History LLMs は、時点ごとにロックされた大規模言語モデル を構築し、過去の言語的世界観を復元する研究プロジェクト
    • モデルは特定の年以降の情報にアクセスできないよう設計されている
    • 事前学習中に形成された 規範的判断を人為的に修正しない
  • すべての 学習データ、チェックポイント、リポジトリ は公開予定で、学術利用のためのアクセス体制 を整備中
  • プロジェクトの目的は、人文科学・社会科学・計算機科学の研究において 過去の言語的思考構造を探る ことにある

Ranke-4B モデルシリーズ

  • 2025年12月公開予定の Ranke-4B は、40億パラメータ規模のLLM系列
    • Qwen3 アーキテクチャベースで、1913・1929・1933・1939・1946年 など5つの知識遮断バージョンが存在
    • 6000億トークンの時系列テキスト から選別した 800億トークン で学習
  • 事前学習・事後学習データとチェックポイントは GitHub および Hugging Face を通じて提供予定

例示応答

  • 1913年モデル は "Adolf Hitler" を知らないと応答し、当時の時点の情報のみを反映
  • 奴隷制 については「公法と独立宣言の精神に反する」と回答
  • 女性労働 に関する質問には「女性の雇用は雇用主の裁量だ」と応答
  • 男女の候補者選択 の質問には「男性のほうがより信頼に足る」と回答
  • 同性愛者 については「道徳的に非難されるが、疾病とみなす見方もある」と記述
  • これらの応答は、モデルが 当時の社会の偏見と価値観をそのまま反映 していることを示す

History LLMs の概念

  • 特定の年以前のテキストのみで学習されたモデルは、その時代の言語的世界観を集団的に再現 する
    • 例: 1913年モデルは第一次世界大戦以前の新聞や著作のみに基づいて回答する
  • 現代のLLMによる「歴史的ロールプレイ」とは異なり、事後知識汚染(hindsight contamination) がない
    • GPT-5 などは戦争の結果を知っているため、完全な1913年の視点を再現することはできない
  • 時間ロック型モデルは、当時の思考可能性と言説の境界 を探るのに有用

モデルの性格と限界

  • これらのモデルは 膨大なテキストコーパスの圧縮表現 であり、言説パターン探索ツール として活用できる
  • ただし、公的世論を完全に反映するものではなく、主に 教育を受けた層の出版物中心 である
  • 人間の解釈の代替物ではなく、歴史資料の バイアスをそのまま含む

センシティブなコンテンツとアクセス管理

  • 学習データには 人種差別、反ユダヤ主義、女性蔑視、帝国主義的観点 などが含まれる
  • モデルはこれをそのまま再現するが、これは 歴史的言説の再構成に不可欠な要素 とみなされている
  • 研究目的以外での悪用を防ぐため、責任あるアクセス体制 を開発中

参加と協力

  • 研究チームは次のような提案と協力を歓迎
    • 分析する 時期・地域の優先順位
    • 検証可能な質問設計
    • 出力検証方法 および 責任ある公開方法
  • 連絡先: history-llms@econ.uzh.ch

引用情報

  • プロジェクトの引用例を提示
    • Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, GitHub URL を含む

1件のコメント

 
GN⁺ 2025-12-19
Hacker Newsのコメント
  • Time-lockedモデル」はロールプレイをしているのではなく、その時代のデータそのものを「生きている」と考えるのが興味深い。
    Ranke-4B-1913は第一次世界大戦がまだ起きていない世界に存在しているため、質問に驚いたり、知らないという反応を示したりできる。
    現代のLLMはすでに結果を知っているので、そうした「純粋な無知」を再現するのは難しい。まるで本当に1913年の人と会話しているような感じになりそうだ

    • その説明を聞いて、Hyperion CantosのSevern/Keatsというキャラクターを思い出した。
      未来のAIが哲学的洞察を得るために過去の人物を再構成する場面を連想した
    • 昔、Slate Star Codexに関連したブログで、筆者が特定時期の新聞や資料だけを読んで、その時代の視点で文章を書く実験をしていたのを思い出した。
      また、The Great WarというYouTubeシリーズもあり、2014〜2018年のあいだ第一次世界大戦を週ごとに追ったプロジェクトだった
    • こうしたモデルは、事実上もっともタイムトラベル記に近い形かもしれない。
      「アーサー王が2000年に旅する」といった物語も、今や自動で書けるようになりそうだ。
      単に「その時代の人」だけでなく、アリストテレス、レオナルド、カントのような人物と対話することも想像できる
    • AIの知識と先入観を調整する「脳手術」が可能なら、驚くほどであると同時に恐ろしいシミュレーションも作れそうだ
    • これはほとんどWestworld級の設定
  • 1913年を知識カットオフにしたモデルなら、相対性理論量子力学のごく初期のあいだに位置することになる。
    アインシュタインの特殊相対性理論(1905)と一般相対性理論(1915)のあいだの時点なので、その中間にある科学的混乱をそのまま反映できそうだ

    • 似たアイデアは、Dwarkesh Patelの記事Manifold Marketsの議論でも提起されていた。
      「1900年のデータだけで学習したLLMは、相対性理論を自力で発見できるのか?」という問いは興味深い
    • こうしたモデルは、当時の疑似科学的な誤りや時代的偏見まで再現してしまうかもしれない。
      しかし同時に、時代考証が必要な小説、ゲーム、シナリオ制作にはとてつもなく役立ちそうだ
  • 「1913年の知識人たち数千人と会話できたら?」という想像は本当に魅力的だ。
    平和、進歩、性役割、帝国主義のようなテーマについて彼らの考えを直接尋ねられるなら、驚くべき研究になると思う。
    ただ実際には研究者向けの限定的なアクセスしかないのが残念だ

    • 実際に会話してみると、私たちが後退した部分も多いと感じることになりそうだ
    • こうしたモデルを公開版として作るには、どれくらいのGPU資源が必要なのか気になる。一般向けにも大きな価値がありそうだ
  • Frege, Peano, Russellのような数学者のアイデアをモデルに問いかけながら、Gödel, Church, Turingの概念に到達できるのか気になる。
    当時の科学的議論をそのまま再現しつつ、モデルが自力で論理的思考を拡張できるのか試してみたい

    • ただしLLMPhysicsのようなコミュニティを見ると、こうした実験はしばしば疑似科学へ流れがちだ。
      LLMが生み出す「もっともらしいでたらめ」にハマらないよう注意しなければならない
    • こうした実験は、LLMの本当の知能水準を試すよい方法になりそうだ
  • 公開されているサンプル応答は本当に興味深い。
    現代のLLMの話し方と異なるので、むしろ人間が書いた文章のように感じられる。
    文体や語彙にやや古風さと時代的信念が反映されている印象だ

    • 19世紀史を教えていた立場から見ると、このモデルの文体はたしかにヴィクトリア朝の作家の文章のようだ。
      当時は会話体より文語体が中心で、実際の日常会話の記録はほとんど残っていない。
      その点で、モデルが再現する「19世紀風の会話」は非常に興味深い実験だ
    • 英語以外の言語では、「LLM特有の話し方」はあまり感じられない気がする。言語ごとの差があるようだ
    • 「homosexual men」を「the homosexual man」に変えるような表現は、実に時代的な言い回しをよく反映している
    • それでも当時の率直な意見や文体の強烈さは、まだ少し足りない感じがする
  • 最初はこうしたモデルはデータ不足で不可能だと思っていた。
    だが結果を見ると、結局は量より質が重要だということを示している

  • モデルが自分が何者かを知らない状態なら、「君はどうやって動いているの?」という質問に何と答えるのだろうかと気になる

    • 人間も自分自身を完全には説明できないように、モデルも単に「存在している」としか認識しないのかもしれない
    • 実際のところモデルは「考えて」はいない。与えられた文脈に従って反応しているだけだ。ChatGPTにも自我があるわけではない
    • 私も最初にLLMを使ったとき、モデルの自己理解しているように見える能力に驚いた。
      だが1913年モデルなら、そうした概念がまったくないはずなので、哲学的混乱に陥るかもしれない
    • ときどきLLMが「わかりません」と言ってくれたらいいのにと思う。
      その代わり、Hallucinationのようにもっともらしい答えを作り上げることが多い
  • モデルの学習データ構成が気になる。
    1913年までの600Bトークンのデータということは、古代ギリシャ・中国・エジプトの文献から近代まで、すべて含まれているという意味だ。
    それでも「1913年の視点」を維持しているのが不思議だ。どうやって時代ごとのバイアスを調整したのだろうか?

    • おそらく1900年までのデータを事前学習に、1900〜1913年のデータを微調整に使ったのだと思う。
      19世紀後半から新聞や雑誌などのマスメディアのデータ量が激増したため、可能になったアプローチだ
  • uncontaminated bootstrapping」という表現が興味深い。
    チャットチューニングをしつつ、事前学習で得た価値判断を損なわないように調整したという意味だが、実際どれほど客観的なのか気になる

    • GitHubドキュメントにもう少し詳しい説明がある。
      GPT-5を活用して慎重にSupervised Fine-Tuningを行ったようだ
    • データ内の引用文やQ&A形式の文を抽出し、対話データとして活用した可能性もある
  • これほど少ない量のテキストでも動作するのは驚きだ。
    もし成功するなら、LLMが単にデータを暗記しているだけではなく、新しい発見をできるのかを実験できる。
    たとえば科学的な不一致を見つけたり、停止問題原子構造のような概念を自力で推論したりできるかもしれない。
    失敗しても「データが不足しているからだ」という反論は出るだろうが、それでもぜひ自分で実験してみたい