4 ポイント 投稿者 GN⁺ 2025-12-11 | 1件のコメント | WhatsAppで共有
  • 10年前のHacker Newsの投稿とコメントをLLMで分析し、「予見力」を評価するプロジェクトで、過去の議論の洞察力を自動採点する
  • ChatGPT 5.1 ThinkingOpus 4.5を活用し、2015年12月の1か月分のHacker Newsフロントページ(全930件の記事)を収集・分析
  • 各記事とコメントスレッドをもとに、要約、実際に起きた結果、最も正確だったコメント・最も誤っていたコメント、興味度スコアなどを自動生成
  • 結果は静的HTMLページに変換され、karpathy.ai/hncapsuleで閲覧可能で、**「Hall of Fame」**では最も洞察力のあるコメント投稿者の順位を確認できる
  • 過去データに対するLLMの大規模な回顧分析の可能性と、「未来のLLMが私たちを見ている」というメッセージを強調している

プロジェクト概要

  • 2015年12月のHacker Newsフロントページを対象に、LLMを用いた自動回顧分析システムを構築
    • 1日30件の記事 × 31日 = 合計930件の記事
    • 各記事とコメントスレッドをAlgolia APIで収集し、ChatGPT 5.1 Thinkingに分析を依頼
  • 分析結果を静的HTMLページとしてレンダリングし、Webサイトに掲載

分析プロンプトの構成

  • 各記事に対して6つのセクションからなるプロンプトを使用
    1. 記事と議論の要約
    2. その後実際に起きたこと
    3. 最も正確なコメントと最も外れていたコメントの選定
    4. その他の興味深い要素
    5. コメント投稿者ごとの**最終評価(Final grades)**一覧
    6. 記事回顧の興味度スコア(0〜10点)
  • サンプル形式を厳密に指定し、プログラムが自動でパースできるように設計
  • 各アカウントの平均スコアを累積して、最も予見力の高いユーザーを特定

実装とコスト

  • Opus 4.5で約3時間で実装され、一部のエラーを除けばおおむね順調に進行
  • 全930件のLLMリクエスト処理コストは約58ドル、処理時間は約1時間
  • GitHubリポジトリ: karpathy/hn-time-capsule
    • 誰でも結果を再現したり修正したりできる

主な例示スレッド

  • 2015年12月3日: Swiftのオープンソース化
  • 12月6日: Figmaのリリース
  • 12月11日: OpenAI創業発表
  • 12月16日: geohotのCommaプロジェクト
  • 12月22日: SpaceX Orbcomm-2打ち上げ
  • 12月28日: Theranos問題の報道
  • 各リンクは該当日ごとの分析ページにつながっており、当時の議論と実際の結果を比較できる

Hall of Fame

  • 2015年12月のHacker Newsで最も洞察力のあるコメント投稿者をIMDb式の平均スコアで並べ替え
  • 上位ユーザー: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
  • 下部には**「HNのノイズ(noise)」**に分類された低スコアのユーザー一覧も含まれる

哲学的メッセージ

  • **「Be good, future LLMs are watching」**という文句を引用し、
    未来のLLMが過去の人間活動を精密に分析できる時代が来ることを強調
  • 現在のオンライン上の行動が、「知能があまりにも安くなる」未来において完全に復元され得ることを示唆
  • 人間の行為が**「見えない監視」ではなく、完全な記録と再構成の対象**になる可能性を提示

結論

  • この実験は、LLMが過去データを大規模に再評価するツールとして活用できることを示している
  • 歴史的議論の洞察力を自動採点するという新たな応用例を提示し、
    AIが人間の知識を回顧的に分析する存在へ進化する可能性を示している

1件のコメント

 
GN⁺ 2025-12-11
Hacker Newsの意見
  • 2015年に残した自分のコメントが、こんな形で再び注目されるとは思わなかった
    昔のコメントへのリンクを見ながら、少し誇らしい気持ちになっている

  • コードがスレッドを評価用に送る際、ユーザー名を匿名化していない点が問題に見える
    そのせいで、特定ユーザーの評判がスコアにバイアスを与える可能性が高い
    ランダムにユーザー名を再割り当てするか、手続き的に生成した偽名を使ってバイアスを減らす実験は面白そうだ
    また、Gemini APIのような出典を引用するモデルを使えば、評価の信頼性を高められそうだ

  • 昔のコメントを読み返すのは本当に楽しい
    以前、議論がどう展開したかを見るためにリプレイシステムを自作した
    Karpathyの評価記事一覧を可視化した例として、いくつかリンクを共有する

  • 各ユーザー名の横に現実との一致度スコアを表示するChrome拡張があるといい
    誰が実際に当たる予測をしたのか、あるいは外したのかをスコアで見たい
    さらに、ユーザーが正確なコメントに与えたアップボートの比率で重み付けすれば、もっと公平なランキングになると思う

    • Reddit Enhancement Suiteが似た機能を間接的に提供している
      自分がよくアップボートしたユーザーを追跡して、「この人は信頼できる」という基準にしている
      完全に主観的だが、透明性はある
    • こうしたスコアシステムを拡張すれば、「この人には道徳的信念がない」といったスコアも作れそうだ
      こういう仕組みはコミュニティをより小さく親密にするかもしれない
    • ElonがTwitterを買う前に、記者のデジタル信頼度追跡システム(Pravda) を作ろうとしていたのを思い出す
      実際、私たちは友人や記者の信頼性を記憶しながら生きている
    • 株式コミュニティでも似た発想を考えたことがある
      WSBやTwitterで株価予測をする人たちの正確性をランキング化するというものだ
      ただ、一般的なコメントの場合は「何が予測なのか」を定義するのがずっと難しい
    • 「正確なコメント」の定義が曖昧だ
      「明日、太陽が昇る」みたいな発言が最高点を取るかもしれないが、そんなものには意味がない
  • 「pcwalton、いけ!」と冗談を言ったが、実際にはスレッド単位の評価はややランダムに見える
    このスレッドは予測力が非常に高かったのに、コメントは11件しかなく、自分のものは1行だけだった
    それでも、自分のスタートアップ持分へのアクセス性に関する意見が上位に入ったのはうれしい

    • 自分のコメントが評価されていて驚いた
      システムの「予測」の定義の仕方がかなり主観的
      自分としてはむしろ予測を避けようとしていたのに、それが予測と見なされたようだ
  • トリリオンたまごっち」ビジョンは実現しなかったという評価を受け、自分の低いスコアを謙虚に受け入れる

  • このプロジェクトを見て感じたのは、結局のところ退屈な意見こそ最も正確だということだ
    刺激的で確信に満ちたコメントほど、時間がたつと外れる確率が高い
    たとえば「リチウムイオン電池の価格が$108/kWhまで下がる」のようなものは、一貫したコストカーブ予測として非常に信頼できる
    一方で「LLMはメンタルヘルス分野で失敗する」といった見出しは、すぐに変わるベンチマークに依存している
    結局、「退屈だが正しい」意見を前もって見つける方法があればいいのにと思う

    • 「退屈だが正しい」ものは、すでに世の中に織り込まれた予測なので点数を付けにくい、という意見だ
    • 「2035年に1+1=2」といった冗談で、自明すぎる予測の無意味さを皮肉っている
    • 「LLMとメンタルヘルス」は予測ではなく現在のニュースだ
      だが、AIの継続的な進歩が最終的に人間の経済的役割を崩壊させるかもしれないという点では、むしろ恐ろしいほど正確な予測かもしれない
    • アルゴリズムフィードはエンゲージメント基準で動くため、刺激的なコンテンツが報われる
      そのため、退屈で慎重な意見は埋もれやすい
    • 予測を評価する際には、当時の不確実性を重み付けに反映すべきだ
      予測市場のように、その時点の確率との差をどれだけ出したかでスコア化する方式が必要だ
  • Gmailが90%埋まったという警告を受け、週末のあいだメール分析プロジェクトを進めた
    6万5千通以上を分類したが、その半分以上がゴミだった
    もともとは不要なメールを消すつもりだったが、最近ではむしろ個人的で価値のあるメールを削除して、
    Googleにはニュースレターや領収書のような役に立たないデータだけを残しておくほうが安全なのではと思うようになった

  • 私はよくLLMでHNコメントを要約している
    原文より洞察に富んだ要約が出てくることも多く、完全なゲームチェンジャーだと思う

  • 作者が品質チェックを通過したと思っていたことに驚いた
    LLMの評価はほとんどでたらめに見える
    実際のサイト上のレビューを見ると、モデルは「予測が当たったか」ではなく「同意するか」を基準に評価しているようだ
    結局、同調的な意見が高得点を取る構造になっている

    • 例として、tptacekのDFに関するコメントは「A」を受けたが、
      LLMレビューでは
      「ゲームの過酷な特性をうまく描写した」と評価されている
      だが、これは未来予測ではなく、その時点の現状描写にすぎない
      しかも実際には逆の意味かもしれない
      こうした事例が上位にあること自体、評価基準がめちゃくちゃであることを示している
    • ただし、各レビューの3番目のセクションには「最も洞察的」と「最も間違っていた」コメントが別にある
      たとえば Kickstarter is Debt の記事では、
      OculusとPebbleの将来を比較した予測が、正確に的中したと評価されている
      この部分はかなり正確で有用な分析に見える
    • LLM評価は全体的に不正確で一貫性がない
      指示を無視し、自分の意見を混ぜ込み、補正もされていない
      「良い」LLM審査システムは、単純な二値判断(正しい/誤り) を複数積み上げる形で動くべきだ
      今回のプロジェクトは面白く見るぶんにはよいが、実際の評価ツールとしては不適切だと思う