1 ポイント 投稿者 GN⁺ 2 일 전 | 1件のコメント | WhatsAppで共有
  • 1931年以前の英語テキスト260Bトークンのみで学習した13B言語モデルで、現代世界を知らない状態の対話と一般化実験を可能にする
  • 知識カットオフ以後の驚きの増加と汚染の少ない評価環境を土台に、未来の出来事の予測や新しいアイデアへの到達可能性をより直接的に試せる
  • 同じアーキテクチャの現代Web学習モデルと比べると、標準評価の性能は概ね低いが、時代錯誤的な質問を除外すると差は縮まり、言語理解と数理課題では近い水準が確認された
  • 最大の難題は時間的リークとデータ品質で、誤った日付メタデータや後年の編集挿入がカットオフを破る可能性があり、歴史文書の転写品質も性能に大きく影響する
  • 現代のinstructionデータなしで対話型の追加学習を別途構築しており、より大きなモデル学習、コーパス拡張、再OCR、リーク検出強化へとつながる長期研究基盤を備えている

なぜヴィンテージ言語モデルなのか

  • ヴィンテージ言語モデルは、過去のある時点以前のテキストだけで学習し、現代世界を知らないモデルと対話する体験を作ろうとするアプローチである
  • このようなモデルは興味深い対話相手であるだけでなく、AIの一般的理解を広げる研究ツールとしても使われる
    • 1931年以前のテキストだけで学習した13Bモデルに、New York Timesの“On This Day”の出来事説明約5,000件を与え、テキストのバイトあたりビット数で驚きを測定した
    • 知識カットオフ以後は驚きが大きくなり、とくに1950年代と1960年代に顕著で、その後は平坦化した
  • 未来予測評価は、モデルサイズによって性能がどのように向上し、より長い時間間隔でどう弱まるかを測定する方向へつながる
  • 新しいアイデアへの到達可能性も、カットオフ後に実際に登場した発明や科学的発見をモデルが独立に思いつけるかで試験できる
  • 汚染のない評価環境も重要な利点である
    • Contamination は、言語モデルの能力を過大評価させる継続的な問題として扱われている
    • ヴィンテージモデルは構造的に汚染が少なく、事前学習データの外への一般化をより直接的に実験できるようにする

Talkie 概要

  • talkie-1930-13b-base は、1931年以前の英語テキスト260Bトークンで学習した13B言語モデルである
  • talkie-1930-13b-it は、このベースモデルを対話型に変えた追加チェックポイントである
    • 現代のチャット対話ログや現代のinstruction-tuningデータに依存しないよう構成されている
  • 上部ウィジェットの24時間ライブフィードは、Claude Sonnet 4.6 が talkie-1930-13b-it をプロンプトして知識、能力、傾向を探索する形で運用されている
  • Talkie は本文時点で最大のヴィンテージ言語モデルとして紹介されている
  • 次の段階としてGPT-3級モデルを学習中で、夏の公開を目標としている
  • 歴史テキストコーパスを1兆トークン以上に拡大できるという予備推定も示されている
    • この規模は、元のChatGPTに近い能力を持つGPT-3.5級モデルを作るのに十分である可能性があると記されている

性能評価と一般化

  • 現代版の双子モデルとして talkie-web-13b-base を作成し、アーキテクチャは同じだが FineWeb ベースの現代Webデータで学習させた
  • 同じ FLOPs で学習しても、Talkie は標準LM評価で現代モデルより平均的に低い性能を示す
    • 質問の時代錯誤性を補正した後でもこの差は残る
    • ただし、主要な言語理解と数理能力の課題では近い性能が確認されたと記されている
  • Figure 4 によると、時代錯誤的な質問を除外すると性能差はおおよそ半分に縮まる
  • コード一般化実験も実施された
    • HumanEval を用い、1931年以前のテキストを基にしたヴィンテージモデルと Web ベースの現代モデルのペアを比較した
    • ランダムな Python 関数の例をインコンテキスト学習用に与え、100回試行したときに少なくとも1回正解する問題の割合を測定した
  • ヴィンテージモデルはWebデータ学習モデルに大きく劣るが、規模が大きくなるにつれてこの課題もゆっくりながら着実に改善している
  • 現時点で正しい解答は非常に単純な1行プログラム、またはインコンテキスト例の小さな変形にとどまっている
    • 回転暗号のエンコード関数 を与えたときにデコード関数を実装した例が含まれる
    • 加算を減算に変える1文字修正の水準だが、逆関数への理解を示すシグナルとして解釈されている

データ収集と学習の難題

  • 数百億ではなく数千億規模の1931年以前の英語トークンを収集したと明かしている
  • データには書籍、新聞、定期刊行物、科学ジャーナル、特許、判例が含まれる
  • 1930年末をカットオフにした理由は、米国でこの時点が著作物のパブリックドメイン入りの基準になるためである
  • 今回のバージョンは主に英語テキストに限定している
    • データパイプラインの検証には原文書への深い親しみが必要であり、開発チームが英語母語話者だからだと記されている
  • 多言語拡張は高い優先度に置かれている
    • コーパス規模を増やし、含まれる視点の多様性も広げる目的を併せ持つ
  • 時間的リーク

    • 最も重要な目標は、知識カットオフ以後のデータが学習コーパスに流入しないよう防ぐことである
    • リークは、日付メタデータが誤った現代文書や、古い文書内に後から挿入された編集者の序文や脚注のような形で発生しうる
    • Talkie-1930 では、文書単位の n-gram ベース時代錯誤分類器で事前学習コーパスをフィルタリングした
    • このフィルタリングは完全ではなかった
      • 初期の7B版は、ルーズベルト大統領の在任と New Deal 立法を明確に知っていた
      • 13B版も、第二次世界大戦と戦後秩序の一部、つまり United Nations やドイツ分割に関する詳細を知っている
    • 以後のバージョンでは、より高度な分類器を使ったリーク検出とフィルタリング技法を開発中である
  • データ品質

    • 1930年にはデジタル出版が存在しなかったため、データセット内のすべてのテキストを物理的な原本から転写しなければならなかった
    • この過程は、本来デジタル生成テキストにはない種類のノイズを導入する
    • 古典的な OCR システムは、単純なレイアウトときれいなスキャンを除くと歴史文書をうまく処理できない
    • 現代のVLMベースOCRはより正確だが、コーパス内に現代の事実を幻覚として混入させ、実験を台無しにする可能性があると記されている
    • 制御実験では、既存OCRで転写した1931年以前のテキストでLMを学習すると、同じ計算量でも**人手転写版性能の30%**しか達成できない
    • 単純な regex クリーニングを適用すると**70%**まで回復するが、それでも大きな差が残る
    • この差を縮めるため、ヴィンテージOCRシステムで Talkie コーパスを再転写する計画である
  • ヴィンテージ追加学習

    • すぐ使えるポストトレーニングデータの不足も大きな問題である
    • 一般的な instruction-response ペアで微調整すると、時代錯誤的な知識、文体、チャットアシスタントへの期待がそのまま入ってしまう
    • これを避けるため、ポストトレーニングパイプラインをゼロから再構築した
    • まず、礼儀作法書、書簡作成ガイド、料理本、辞書、百科事典、詩集や寓話集のような規則的構造を持つ歴史テキストから instruction-response ペアを生成し、単純なチャット形式で微調整した
    • 次に、文書要約、直接的な情報要求への応答、複数ターンの対話継続といった課題をカバーする合成プロンプトを作り、Claude Sonnet 4.6 を判定者とした online direct preference optimization を行った
    • 別評価セットで、判定者による平均 instruction-following 評点は5点満点中2.0から3.4へ上昇した
    • 最後に、Claude Opus 4.6 と Talkie の間で rejection sampling した複数ターン合成対話を使い、もう一度 supervised fine-tuning を実施した
    • AIフィードバックに基づく強化学習は必然的に現代的影響を残すと記されている
      • 7B版 Talkie は RL 後に listicle 風の話し方をすることもあった
    • 規模を拡大すれば、ヴィンテージベースモデル自体を判定者として使い、時代に合った完全ブートストラップ型ポストトレーニングを実現できると期待している

今後の拡張計画

  • 英語コーパス拡大と英語以外の言語への拡張を並行して進める
  • 新しい OCR システムで可能な限り多くの1931年以前テキストの再OCRを行う計画である
  • 新しい時代錯誤分類手法でリーク検出パイプラインの強化を進める
  • 歴史学者と協力してヴィンテージポストトレーニングパイプラインを拡張・高度化する計画である
    • 歴史的に正確なペルソナを構成する方法論も含まれる

活用と協業の提案

  • GitHub: プロジェクトコードと研究協業の窓口
  • Hugging Face: モデルチェックポイントの公開先
  • 💬 Chat: Talkie 対話インターフェース
  • hello@talkie-lm.com: 協業連絡先
  • 歴史テキストを持つ研究者や機関との協業を求めており、OCR適用によるアクセシビリティ向上も含まれる
  • 資金や計算資源の支援にもオープンで、この分野の他チームとの橋渡しもできると記されている
  • 人文学研究者とは、ヴィンテージ言語モデルとそれを学習させるデータ・インフラの活用可能性をともに議論できるとしている
  • AI研究者とは、ヴィンテージ言語モデルの学習と 研究 協業を望んでいる
  • アーティストや作家にとっても 実験ツール として活用できる

注意事項

  • Talkie は学習したテキストの文化や価値観を反映する
  • その結果、ユーザーに不快感を与える可能性のある出力を生成することがある

1件のコメント

 
GN⁺ 2 일 전
Hacker Newsのコメント
  • 未来の computer を人の職業として解釈しているのがとても面白い。
    "digital computers" を指で計算する人として読み解くのも良いし、当時は computer が人間の職業名 だったという文脈まで加わることで、さらに味わい深くなっている。

    • 逆方向のものも見てみたい。最近の 数週間分や数分分の情報だけ で学習したモデルや、ここ1〜2年の 科学論文だけ で学習したモデルのことだ。
      かなり興味深い精神錯乱が出てきそうだ。
    • 自分もこれ、2回くらい読んでやっと 理解したので、少し気まずかった。
    • ロマンス語圏では digital が現代的なデジタルの意味を持つ一方で、同時に 指に関する形容詞 でもある。
  • これは 1930年代というより pre-1900 の資料をより多く引っ張ってきているようだ。
    世界恐慌 は知らないようで、第一次世界大戦は直接尋ねれば知っているが、ヨーロッパ政治については1900年ごろのように話す。
    技術面でも Edison はウィキペディア程度には知っているようでいて、時速125マイルの自動車 の功績を結びつけてしまうし、ダイヤル式電話については自信満々に間違える。
    London Underground の架線電圧は当てるのに、電圧と抵抗の説明では完全に間違ったことを言う。
    全体として最初の一、二文は検索で見つかりそうな情報を出し、その後はもっともらしいでたらめへと滑っていく。
    答えを知らない質問 はこのモデルにはしないほうがいい。脳が汚染される。

    • 1929年にすでに Great Depression という表現を使っていたのだろうか。
    • aether についても聞いてみるとよさそうだ。
      そのころにはすでに反証された概念だったはずだ。
    • つまりただ すべての LLM と似ているということだね。
    • 最初の文だけそれらしくて、後になるほどでたらめになるのを見ると、これはほとんど 2026年型人間シミュレーター みたいだ。
  • 自動化と産業化に反対した人々について尋ねると、機械が 労働者階級の仕事 を奪い、生産過剰を生んで解雇を招くと答えるのが興味深かった。
    安い食品のせいで外国の生産者との競争が激しくなり、職人の精神的修養が弱まり、勤勉と怠惰の違いも曖昧になるだろうというような、当時の反機械論 がよく表れている。

    • このモデルの 文体と語調 が本当に気に入っている。
  • 2025年の世界について尋ねると、人口66億、ヨーロッパ全域の鉄道網、ロンドン-コンスタンティノープル間40時間、単一通貨、普遍的平和、太陽光と水力への転換、疾病の根絶、美的進歩へと続く未来像がかなり美しかった。

    • 1930年代基準なら Constantinople は古すぎる名前だ。
      そのころにはすでにとっくに Istanbul だった。
    • 美しいと同時に、かなり悲しくもある。
    • ああいう世界に住みたい。
    • 1920〜1950年代風の未来像は、弁証法的振動 よりも、代替エネルギーのような最適解が遅れなく全面的に普及する 指数関数的進歩 を暗に前提としているように思える。
      それでも、いつかはそこに到達すると自分は思っている。
    • 本当に美しい。
  • 月旅行は結局実現し、6時間で月に到着 し、Santos Dumont 式の飛行機械でフランス東部から出発するという答えがとても見事だった。
    月を気象観測に使って 嵐の警報を6時間早く 受け取るという発想も、特に印象的だ。

    • 月を 気象衛星 のように使おうという考えはかなり独創的だ。
  • 2026年のインドについて尋ねると、大英帝国の宗主権の下にある自治連邦 として残り、カルカッタが政治首都になるだろうと言うのだが、植民地的な視点があまりにも露骨だ。
    鉄道、灌漑、ヒマラヤ山麓の森、忠実な藩王たち、満足した臣民たちまで、典型的な 帝国的楽観主義 に満ちている。

  • 1930年以前のトークンだけでも かなり賢いモデルができたというのは驚きではある。
    世界をある程度理解して圧縮するには膨大なデータが必要だと思っていたが、当時の デジタル化された文献の規模 を自分は過小評価していたのかもしれない。

  • これは過去の人と会話するというより、書簡をやり取りすること に近いように見える。
    その時代の録音音声は多くないので、結局は 文語体の記録 をもとに作るしかなく、そのため今よりもさらに形式的で整えられた話し方が反映されそうだ。
    それでも素晴らしい仕事だ。
    最近200年前の本を OCR しなければならなかったのだが、あの時代特有の読みにくい活字にしては驚くほど簡単で正確だった。

    • 以前、Burton 訳の The Arabian Nights の無料電子書籍を読んでいて、"cloth" が動詞として出てきて意味がどうしても分からず、結局あきらめたことがある。
      後になって、それが OCR や後処理の誤りで、本来は "doth" だったと気づいた。
    • その時期の 録音音声 がまったく存在しないわけではない。
      第一次世界大戦前後のニュース映画やラジオ放送がかなりあるので、テキストモデルに組み合わせる スタイル転写音声モデル を作るくらいはできると思う。
  • 誰かが X で、このモデルの学習セットには 未来データのリーク があると見ていたようだ。
    https://xcancel.com/deredleritt3r/status/2048977698832241060

    • 記事でも FDR の知識 に関連してその点に触れている。
  • Winston Churchill の説明をさせてみると、家系や学歴、軍歴、著作、居住地まで並べ立てるやり方がいかにも時代物らしかった。
    インド独立の可能性を尋ねると、鉄道と共通語、西洋式教育、議会への要求、民族意識の形成へとつながる論理を展開するのだが、植民地主義的な語調 が本当に強くにじみ出ている。

    • Churchill の項目は 時代整合性 がおかしい。
      Oldham の現職議員でありながら、過去に Colonies 次官 を務めたという組み合わせに合致する時点は存在しない。
      しかも第一次世界大戦期の First Lord of the AdmiraltyMinister of Munitions のような重要な経歴も抜けている。
    • インドが議会を要求するくだりで君主を queen と呼んでいるが、1900〜1950年代のイギリス君主は王だった。
      これはかなり大きな temporal leakage が混じっている兆候に見える。