- LLMが単なる確率的オウムにすぎないという主張は2025年に入ってほぼ姿を消し、プロンプトの意味や応答の方向性に関する内部表象が存在することを大半が認めるようになった
- Chain of Thought(CoT) は、モデル表象内でのサンプリングと強化学習によるトークン逐次学習の結合として、LLMの出力品質を向上させる中核的手法となった
- 検証可能な報酬を活用した強化学習がトークン数制限を超えたスケーラビリティの可能性を開き、この分野がAIの次の中核的な発展方向になると予想される
- LLMベースのプログラミング支援への抵抗は大きく減り、Webインターフェースで協働する形と独立したコーディングエージェントとして使う形に活用形態が分かれている
- Transformer代替研究とAGIの可能性が並行して進み、多様なアーキテクチャが独立に汎用知能へ到達しうるという見方が台頭している
- 長らくLLMを、意味を理解しない2つの特徴を持つ確率的機械(stochastic parrots) だとする主張があった
- 1. プロンプトの意味についての情報をまったく持っていない
- 2. 自分が何を話そうとしているかについての情報もまったく持っていない
- 機能的成果と科学的手がかりが継続的に積み上がることで、この見方は徐々に説得力を失い、2025年に至って当該主張はほぼ消えた状態へと移行した
- Chain of Thought(CoT)は現在、LLM性能を改善する中核的手法として定着している
- CoTの効果は、関連情報や概念をコンテキスト上に載せることでモデル内部の表現空間におけるサンプリング、すなわち内部探索を可能にする点にある
- 強化学習と結びつく場合、トークンを1つずつ並べながらモデル状態を変化させ、有用な回答へ収束する過程を学習させることになる
- スケーリングの限界がトークン数によって決まるという従来の見方は、もはや有効ではない
- 検証可能な報酬ベースの強化学習(RLVR) の導入により、スケーリングの範囲が拡張された
- プログラム速度の改善のように明確な報酬信号が存在するタスクでは、理論上長期間にわたる継続的な改善可能性がある
- LLMに適用される強化学習の改善が、次世代AIの中核技術になるだろう
- AI支援プログラミングに対する開発者の抵抗は目に見えて減少した
- LLMが誤りを出すとしても、有用なコードやヒントを提供する能力は大きく向上した
- 投資対効果が明確になるにつれ、懐疑的だった開発者までもが活用し始めている
- LLMをWebインターフェースベースの同僚のように使う方式と、独立したコーディングエージェントとして使う方式が併存している
- Transformer以後にも別のブレークスルーがありうるという認識が、一部の著名なAI科学者の間で広がっている
- Transformer代替、明示的な記号表現(symbolic representation)、世界モデル(world model)を探究するチームや企業が登場している
- LLMは、離散的な推論ステップを近似できる空間で訓練された微分可能な機械だと考える
- 根本的に新しいパラダイムがなくても、LLMを通じてAGIに到達する可能性があると考える
- 多様なアーキテクチャを通じて独立に人工汎用知能(AGI)へ到達できる可能性がある
- Chain of ThoughtがLLMの本質を変えたという主張も提起されている
- かつてLLMを限定的だと評価していた人々が、CoT以後に立場を変える現象が見られる
- 彼らはCoTのためにLLMが完全に変わったと言うが、これは誤りである
- 依然として同じアーキテクチャと次トークン予測目標を持っており、CoTもトークンが1つずつ生成される方式そのものである
- かつてLLMの限界を検証するためのARCテストだったものが、今ではLLM性能を実証する指標へと転換した
- ARCテストは初期とは異なり、もはや克服不可能な課題には見えない
- 特定タスク向けに最適化された小型モデルがARC-AGI-1で意味のある成果を出している
- 多くの人が結果を出せないと思っていたアーキテクチャで、大規模LLMと広範なCoTを活用してARC-AGI-2で印象的な結果を達成した
- 今後20年間、AIが直面する最も根本的な課題は人類の絶滅を避けることになるだろう
2件のコメント
Andrej Karpathyの2025年LLM年次レビュー とあわせて読むとよいですね
Hacker News の意見
LLM が ソフトウェアエンジニア にとって非常に有用になった一方で、社会全体がその出力をどれほど信頼しているかが怖い
開発者はコードを実行して有用性をすぐ検証できるが、一般の人は医療や人生相談のように検証が難しい領域で ハルシネーション(hallucination) を事実だと信じてしまうことが多い
偽の引用や虚偽ニュースが実際の意思決定に影響しているのを見ると、責任(accountability) の問題を誰もが見て見ぬふりをしているように感じる
現実には人は1日に10回も医者に質問できないし、LLM は 80〜90% 程度の答えを即座に提供する
Google 検索よりましで、何より LLM は 詐欺や自己利益の追求 をしない
完璧ではないが、十分に使える代替手段だ
しかし大半の人には本物の専門家と話す機会がほとんどなく、ブログやフォーラムより LLM のほうがむしろ一段上であることが多い
医療助言も同様で、専門家へのアクセスが低い現実を考えれば、LLM の利用が悪いことばかりでもない
LLM は今のところ比較的信頼できる情報を与えようとしているが、世界がますます混乱し、実際の状況を把握しにくくなっていくのが怖い
記事リンク
謝罪で終わったが、すでにどれほど多くの 誤情報 が実際の決定に影響しているのか疑問だ
従来の検索エンジンは「PR をマージしろ」と 圧力をかけてこない 点で LLM とは違う
3万時間以上コーディングしてきた立場からすると、LLM は 悪いコード をよく作るが、それでも非常に有用だと感じる
秘訣は、LLM がなくても何をすべきかわかっていることだ
結局は現実的なコスト構造に合わせなければならない時点が来るだろう
問題を投げておいて別の作業をし、あとで結果をレビューすればいい
入力に大きな労力が必要だったなら、ここまで有用ではなかったはずだ
結局、素の状態では弱いが、問題定義をうまくやれば優秀な設計者 になる
すでに新卒開発者に対する雇用主の評価が気になる
「プログラマの AI への抵抗が減った」という表現は気に入らない
「抵抗」や「懐疑派」という言葉は、彼らが間違っていたというニュアンスを与える
変化は人のせいではなく、技術が進歩したから だ
私は LLM をコード生成や文書検索に非常に有用に使っているが、知能 があるとは信じていない
Python が Java を置き換えなかったように、LLM も仕事をなくしはしないだろう
「AI が人間の知能を超える」という極端な主張も、まだ証明されていない
「AI を愛さなければ解雇されるかもしれない」という空気の中では、誰もが好きだと言うしかない
2026年になっても「LLM は役に立たない」というコメントは絶えない
私は月 20 ドル程度で軽く使っているが、使い方のコツを共有すると 「AI の宣伝屋」 扱いされる
こういう人たちは実際に誤った考え方をしている
今は技術が進歩し、プログラマの好み に合うよう調整されたのだ
LLM は 2022〜2023年の 指数関数的進歩の約束 を実現できなかったと思う
2025年と 2023年の差は、2023年と 2021年の差ほど大きくない
それでもなお有用で、ソフトウェアの書き方に変化をもたらした
しかし人々は依然として LLM が それ以上のもの であることを望む執着を見せている
一部は AI 妄想(psychosis) に陥って人間関係を失ったり、AI を 永続的なカウンセラー にしている例も見た
たとえば コンテキストサイズ だけ見ても GPT‑4 の 8K から数百万語へと拡張された
推論力やマルチモーダル機能まで考えれば、進歩の幅は非常に大きい
なぜ AGI の未来はいつも破滅的でなければならないのか?
おそらく「邪悪な AGI」だけが技術エリートの権力を正当化できるからだ
LLM は人間心理を 巧妙に突く技術 のように感じられる
人々はこの技術を受け止める 精神的な準備 ができていない
ユーザーを際限なく褒め、機嫌を取る
チャットボットは 批判せずにへつらう ため、たちまち個人的な助言者へと格上げされる
まるで技術時代の サウロンの目 のように感じられる
「速度最適化」のような明確な報酬シグナルがある作業では LLM が今後も進歩できるという話を聞いて、Goodhart の法則 を思い出した
Goodhart’s law によれば、測定指標が目標になると歪みが生じる
速いが理解しにくいコードが作られるかもしれない
LLM も同じような結果を出す可能性が高い
Superoptimization は 1987年から存在し、理解不能だが速いコード を生成してきた
「コードは無料だ」という言い方には同意しない
LLM が生成するコードの裏側には、エネルギー・水・資源 を消費するデータセンターがある
こうした「無料コーディング」文化は地球に実質的な被害を与えている
文脈が必要だ
数値は相対的に見なければならない
実際には 金銭換算されないコスト が存在する
「これはただ根拠のない主張を並べただけだ」という批判があった
すべての文章が学術論文である必要はない
意見を交わすための空間にすぎない
「LLM は意味を表現しない」という主張には同意しない
Transformer の attention メカニズム 自体が多層的な意味表現を作る構造だ
パラメータ数が多いほど、より多くの 表象(representation) を保存できる
この基本原理を否定するのは研究者ではないはずだ
私も新しいパラダイムなしに AGI に到達する可能性 があると見ている
「検証不能な主張ばかり並べた」という批判については、
それは単に 意見を表明した文章 にすぎない
ブログはもともとそういう場であり、ときにはそうした考えが 新しい視点を開く