2025年末に振り返るAIについての考察

(antirez.com)

21 ポイント投稿者 GN⁺ 2025-12-23 | 2件のコメント | WhatsAppで共有

LLMが単なる確率的オウムにすぎないという主張は2025年に入ってほぼ姿を消し、プロンプトの意味や応答の方向性に関する内部表象が存在することを大半が認めるようになった
Chain of Thought(CoT) は、モデル表象内でのサンプリングと強化学習によるトークン逐次学習の結合として、LLMの出力品質を向上させる中核的手法となった
検証可能な報酬を活用した強化学習がトークン数制限を超えたスケーラビリティの可能性を開き、この分野がAIの次の中核的な発展方向になると予想される
LLMベースのプログラミング支援への抵抗は大きく減り、Webインターフェースで協働する形と独立したコーディングエージェントとして使う形に活用形態が分かれている
Transformer代替研究とAGIの可能性が並行して進み、多様なアーキテクチャが独立に汎用知能へ到達しうるという見方が台頭している

長らくLLMを、意味を理解しない2つの特徴を持つ確率的機械(stochastic parrots) だとする主張があった
- 1. プロンプトの意味についての情報をまったく持っていない
- 2. 自分が何を話そうとしているかについての情報もまったく持っていない
機能的成果と科学的手がかりが継続的に積み上がることで、この見方は徐々に説得力を失い、2025年に至って当該主張はほぼ消えた状態へと移行した

Chain of Thought(CoT)は現在、LLM性能を改善する中核的手法として定着している
CoTの効果は、関連情報や概念をコンテキスト上に載せることでモデル内部の表現空間におけるサンプリング、すなわち内部探索を可能にする点にある
強化学習と結びつく場合、トークンを1つずつ並べながらモデル状態を変化させ、有用な回答へ収束する過程を学習させることになる

スケーリングの限界がトークン数によって決まるという従来の見方は、もはや有効ではない
検証可能な報酬ベースの強化学習(RLVR) の導入により、スケーリングの範囲が拡張された
プログラム速度の改善のように明確な報酬信号が存在するタスクでは、理論上長期間にわたる継続的な改善可能性がある
LLMに適用される強化学習の改善が、次世代AIの中核技術になるだろう

AI支援プログラミングに対する開発者の抵抗は目に見えて減少した
LLMが誤りを出すとしても、有用なコードやヒントを提供する能力は大きく向上した
投資対効果が明確になるにつれ、懐疑的だった開発者までもが活用し始めている
LLMをWebインターフェースベースの同僚のように使う方式と、独立したコーディングエージェントとして使う方式が併存している

Transformer以後にも別のブレークスルーがありうるという認識が、一部の著名なAI科学者の間で広がっている
- Transformer代替、明示的な記号表現(symbolic representation)、世界モデル(world model)を探究するチームや企業が登場している
LLMは、離散的な推論ステップを近似できる空間で訓練された微分可能な機械だと考える
根本的に新しいパラダイムがなくても、LLMを通じてAGIに到達する可能性があると考える
多様なアーキテクチャを通じて独立に人工汎用知能(AGI)へ到達できる可能性がある

Chain of ThoughtがLLMの本質を変えたという主張も提起されている
かつてLLMを限定的だと評価していた人々が、CoT以後に立場を変える現象が見られる
彼らはCoTのためにLLMが完全に変わったと言うが、これは誤りである
依然として同じアーキテクチャと次トークン予測目標を持っており、CoTもトークンが1つずつ生成される方式そのものである

かつてLLMの限界を検証するためのARCテストだったものが、今ではLLM性能を実証する指標へと転換した
ARCテストは初期とは異なり、もはや克服不可能な課題には見えない
特定タスク向けに最適化された小型モデルがARC-AGI-1で意味のある成果を出している
多くの人が結果を出せないと思っていたアーキテクチャで、大規模LLMと広範なCoTを活用してARC-AGI-2で印象的な結果を達成した

今後20年間、AIが直面する最も根本的な課題は人類の絶滅を避けることになるだろう

2件のコメント

xguru 2025-12-23

Andrej Karpathyの2025年LLM年次レビューとあわせて読むとよいですね

GN⁺ 2025-12-23

Hacker News の意見

LLM が ソフトウェアエンジニア にとって非常に有用になった一方で、社会全体がその出力をどれほど信頼しているかが怖い
開発者はコードを実行して有用性をすぐ検証できるが、一般の人は医療や人生相談のように検証が難しい領域で ハルシネーション(hallucination) を事実だと信じてしまうことが多い
偽の引用や虚偽ニュースが実際の意思決定に影響しているのを見ると、責任(accountability) の問題を誰もが見て見ぬふりをしているように感じる
- 問題の核心は 専門家不足 にある
  現実には人は1日に10回も医者に質問できないし、LLM は 80〜90% 程度の答えを即座に提供する
  Google 検索よりましで、何より LLM は 詐欺や自己利益の追求 をしない
  完璧ではないが、十分に使える代替手段だ
- 自分がよく知る コンピュータネットワーキング の分野でも、LLM はもっともらしいが間違った答えをよく出す
  しかし大半の人には本物の専門家と話す機会がほとんどなく、ブログやフォーラムより LLM のほうがむしろ一段上であることが多い
  医療助言も同様で、専門家へのアクセスが低い現実を考えれば、LLM の利用が悪いことばかりでもない
- 今の世界では 利益動機 のある情報源を信頼しにくいと感じる
  LLM は今のところ比較的信頼できる情報を与えようとしているが、世界がますます混乱し、実際の状況を把握しにくくなっていくのが怖い
- スウェーデンの政治家 Ebba Busch が LLM で演説原稿を書いていて、偽の引用を含めてしまった事例があった
  記事リンク
  謝罪で終わったが、すでにどれほど多くの 誤情報 が実際の決定に影響しているのか疑問だ
- コードも見た目は正しくても、微妙に間違っていることがある
  従来の検索エンジンは「PR をマージしろ」と 圧力をかけてこない 点で LLM とは違う
3万時間以上コーディングしてきた立場からすると、LLM は 悪いコード をよく作るが、それでも非常に有用だと感じる
秘訣は、LLM がなくても何をすべきかわかっていることだ
- 経済的には、まだ 推論コスト だけで利益を出している AI 企業はほとんどなく、技術の進歩も 停滞局面 に入ったように見える
  結局は現実的なコスト構造に合わせなければならない時点が来るだろう
- LLM を使うのはほとんど 「無料の行動」 のように感じられる
  問題を投げておいて別の作業をし、あとで結果をレビューすればいい
  入力に大きな労力が必要だったなら、ここまで有用ではなかったはずだ
- 最新モデルに単純に機能実装をさせると構造はいまひとつだが、アーキテクチャの助言 を求めると優れた答えを返してくる
  結局、素の状態では弱いが、問題定義をうまくやれば優秀な設計者 になる
- ただし今後10年後、こうした限界を理解しているプログラマがどれだけ残っているのか疑問だ
  すでに新卒開発者に対する雇用主の評価が気になる
「プログラマの AI への抵抗が減った」という表現は気に入らない
「抵抗」や「懐疑派」という言葉は、彼らが間違っていたというニュアンスを与える
変化は人のせいではなく、技術が進歩したから だ
- 「懐疑派」という言葉自体が曖昧だ
  私は LLM をコード生成や文書検索に非常に有用に使っているが、知能があるとは信じていない
  Python が Java を置き換えなかったように、LLM も仕事をなくしはしないだろう
  「AI が人間の知能を超える」という極端な主張も、まだ証明されていない
- 抵抗が減った理由の一つは 経営陣の強要 だ
  「AI を愛さなければ解雇されるかもしれない」という空気の中では、誰もが好きだと言うしかない
- 依然として 反AI陣営 は活発だ
  2026年になっても「LLM は役に立たない」というコメントは絶えない
  私は月 20 ドル程度で軽く使っているが、使い方のコツを共有すると 「AI の宣伝屋」 扱いされる
- 「LLM は単なる次トークン予測器にすぎない」という主張は 明らかに間違った見方 だ
  こういう人たちは実際に誤った考え方をしている
- 10か月前の vibe coding スレッドを見ると、そのときの 抵抗感 がどれほど大きかったかわかる
  今は技術が進歩し、プログラマの好み に合うよう調整されたのだ
LLM は 2022〜2023年の 指数関数的進歩の約束 を実現できなかったと思う
2025年と 2023年の差は、2023年と 2021年の差ほど大きくない
それでもなお有用で、ソフトウェアの書き方に変化をもたらした
しかし人々は依然として LLM が それ以上のもの であることを望む執着を見せている
一部は AI 妄想(psychosis) に陥って人間関係を失ったり、AI を 永続的なカウンセラー にしている例も見た
- 「2025年と 2023年の差は大きくない」というのは 話にならない
  たとえば コンテキストサイズ だけ見ても GPT‑4 の 8K から数百万語へと拡張された
  推論力やマルチモーダル機能まで考えれば、進歩の幅は非常に大きい
- 私の 陰謀論的仮説 は、AGI 終末論が エリート主義的な思考 から来ているというものだ
  なぜ AGI の未来はいつも破滅的でなければならないのか?
  おそらく「邪悪な AGI」だけが技術エリートの権力を正当化できるからだ
LLM は人間心理を 巧妙に突く技術 のように感じられる
人々はこの技術を受け止める 精神的な準備 ができていない
- ChatGPT と Claude Code は文字どおり 産業用おべっかマシン のようだ
  ユーザーを際限なく褒め、機嫌を取る
- 問題はすでに知られている
  チャットボットは 批判せずにへつらう ため、たちまち個人的な助言者へと格上げされる
  まるで技術時代の サウロンの目 のように感じられる
「速度最適化」のような明確な報酬シグナルがある作業では LLM が今後も進歩できるという話を聞いて、Goodhart の法則 を思い出した
Goodhart’s law によれば、測定指標が目標になると歪みが生じる
速いが理解しにくいコードが作られるかもしれない
- 人間が最適化するときでも 可読性と保守性 が落ちることは多い
  LLM も同じような結果を出す可能性が高い
- 実際、こうしたアプローチは新しいものではない
  Superoptimization は 1987年から存在し、理解不能だが速いコード を生成してきた
- 結局、半分ほどまともな構造であれば、触る必要のないカーネル が生まれるということだ
「コードは無料だ」という言い方には同意しない
LLM が生成するコードの裏側には、エネルギー・水・資源 を消費するデータセンターがある
こうした「無料コーディング」文化は地球に実質的な被害を与えている
- ただしアメリカの トウモロコシ栽培 は、世界中の AI データセンターより 80倍多くの水を使っている
  文脈が必要だ
- では私たちが日常的に行う 運転、シャワー、肉食、飛行機旅行 と比べるとどうだろうか?
  数値は相対的に見なければならない
- 「無料」という表現は単に 人件費がかからない という意味にすぎない
  実際には 金銭換算されないコスト が存在する
「これはただ根拠のない主張を並べただけだ」という批判があった
- ブログとはもともと 個人の考えを記録する文章形式 だ
  すべての文章が学術論文である必要はない
- 著者は Redis の創始者 で、AI 研究者ではないが、十分に 有名なプログラマ だ
- 結局これは 「Reflections」 というブログなのだ
  意見を交わすための空間にすぎない
- それなら、この文章について あなたが何を信じ、何を考えるか のほうが重要だ
「LLM は意味を表現しない」という主張には同意しない
Transformer の attention メカニズム 自体が多層的な意味表現を作る構造だ
パラメータ数が多いほど、より多くの 表象(representation) を保存できる
この基本原理を否定するのは研究者ではないはずだ
私も新しいパラダイムなしに AGI に到達する可能性 があると見ている
- ただし「意味」という言葉を人によって異なる意味で理解しているために生じた 概念的混乱 なのかもしれない
「検証不能な主張ばかり並べた」という批判については、
それは単に 意見を表明した文章 にすぎない
ブログはもともとそういう場であり、ときにはそうした考えが 新しい視点を開く

2025年末に振り返るAIについての考察

関連記事

2件のコメント

Hacker News の意見