- GPT-5の期待に反し、実際の公開後、コミュニティの失望感は大きく高まった
- GPT-5は既存モデルと実質的に大きな差別化がなく、むしろ一部ベンチマークでは逆に性能が悪化したことも確認された
- 最新研究で、大規模言語モデル(LLM)の汎化の限界と分布シフト問題が依然として深刻であることが示された
- OpenAIの技術リーダーシップ喪失、主要人材の離脱、競争他社の追い上げなどにより、企業価値の維持が不透明になった
- AGI実現をめぐる主張への懐疑感が強まり、業界全体で**「純粋なスケーリング」アプローチ**の限界認識が広がっている
GPT-5公開と期待感
- OpenAIが長い間告知を続けてきたGPT-5公開が、ついに実現した
- CEOのSam Altmanは公開の前後で、自信に満ちた発言とマーケティングイメージを積極的に活用した
- しかしGPT-5公開後、インフルエンサーを一部除けば、大半のコミュニティで失望感が主流となった
- ユーザーは新モデルに対し大きく失望し、旧バージョンへの要求署名が実現する現象すら起きた
- Altmanのマーケティングや主張とは対照的に、実際の使用レビューは明確に否定的評価へ傾いた
コミュニティとメディアの反応
- OpenAI Reddit、Hacker Newsなど複数のコミュニティで、**エラー、ハルシネーション(hallucination)**などGPT-5の問題点が集中的に指摘された
- 主要な性能ベンチマークでは、Grok 4など競合モデルに及ばないケースも見られた
- 自動ルーティングといった新機能も、混乱と未熟さを露呈した
- 期待値が急速に高まったコミュニティにおいて、GPT-5は逆に大きな失望を残した
- 公開当日のPolymarket調査では、OpenAIのAIリーダーシップ信頼度が1時間の間に75%から14%へ急落した
構造的な限界:チェス、視覚理解、推論の問題
- 著者や複数の専門家が指摘してきた基本的な推論エラーとチェス規則遵守の失敗は依然として存在する
- 画像生成などの分野では、部分-全体関係、視覚的一貫性などで明確な限界が示された
- 機械工学の博士号保持者や一般人であっても間違えないはずのレベルの問題で、GPT-5は誤りを犯した
- 要約や読解などの基本タスクでも、複数の誤り事例が報告されている
- GPT-5は穏やかな段階的改善モデルだが、昨年と比べて目立った革新は見られない
OpenAIの現状と展望
- GPT-5は前作と比べて段階的改善の範囲にとどまり、致命的な欠点が繰り返された
- 市場と業界ではOpenAIの技術リーダーシップへの信頼が低下している
- 多くの主要人材が離脱し、競合他社を設立したり転職したりし、Anthropic、Google、Elon Muskらが急速に追い上げている
- 価格引き下げ圧力、収益性の問題、Microsoftとの関係悪化など構造的リスクが拡大している
- LLMベースのAGI実現可能性に対する懐疑とCEO Sam Altmanに対する信頼低下が深まっている
LLMの根本的な限界:汎化と分布シフトの問題
- Arizona State University(アリゾナ州立大学)の最新論文で、Chain of Thought推論でさえも訓練分布から外れると崩壊する現象が確認された
- Appleなど他社がすでに指摘してきた分布シフト(distribution shift)に脆弱な構造が最新モデルでも同様に確認された
- これはLLMが継続的に本質的な限界に突き当たる根本原因であり、巨大なパラメータ数だけでは克服できないことが明らかになった
- 数十億ドルが投入されたスケーリング戦略が、本質的な問題解決では失敗していることを示した
- 新しいパラダイムを模索する必要性が広がっている
AI業界全体と「スケーリング」の限界
- AGI、運転の自動化、過度に楽観的なタイムラインなど、誇張されたマーケティングが横行している
- 性能を歪めたベンチマーク、ブラックボックス的評価、透明性不足は深刻である
- 多くの人々が**「AGI」**という用語が投資家と一般大衆を惑わせる手段であることを認識し始めている
- AIへの楽観論と過熱が同時に高まっている
- 純粋なスケーリングアプローチが行き詰まりに直面しているのが現実である
代替案と結論
- GPT-5はより安価になった可能性はあるが、チェス、推論、視覚、数理能力など質的な限界は依然として残る
- Grok、Claude、Geminiなどの競合モデルも同様の問題を繰り返している
- **分布シフト(distribution shift)**問題は依然として未解決のままである
- 今後は神経記号(neurosymbolic)AIや世界モデルベース手法などの新たなアプローチが必要だという主張が出ている
- 純粋なスケーリングではなく複合的なアルゴリズム革新こそがAGI実現の必須要素であることが再確認された
今後の論点予告とPS
- 今週明らかになったLLMの限界に加えて、さらに深刻な科学的問題が明らかになる見込みが示唆されている
- 次回のフォローアップ記事で別件について共有することを告知
まとめ
- GPT-5公開前後で、業界とコミュニティの期待と反応、LLMの構造的限界、OpenAIの将来、AGIフレームの現実が幅広く議論された
- 全体として、この内容はLLM、GPT-5の実質的な限界、AI投資/期待/失望、イノベーション論点、研究動向など、スタートアップとIT実務者に重要な示唆を与える
5件のコメント
過剰な悲観論のようだ。
懸念点は理解できるが、技術の発展過程が必ずしも常に上向きとは限らない。
投稿を書いた人物が、ただでさえデタラメばかり言うGary Marcusだったから…
Googleのように、静かにshow&proveを出していれば、ここまでにはならなかったと思うんだけど、これまで「怖すぎる」「死の星はどうだ」「核爆弾を作ってしまった」みたいに、ハイプと言えばハイプのようなことをたくさん言ってきた自業自得じゃないかなと思います。
それに、発表でベンチマークを示す際に本当に痛々しいほど恥ずかしいミスをしていたことも、全体的な印象を悪くする原因になっていたと思います。
Hacker Newsの意見
私は今でもGPT-5は実質的にはコスト削減戦略だと思う。GPUが必要な製品で10億人のユーザーを獲得しようとする成長志向の企業だからだ。
GPT-5 Proについて誰も話していないが、私は実際に試したところ、Grok 4 HeavyやOpus 4.1よりも明らかに優れていた。
完全に最新の技術で、モデルを真の最大性能で回せば1人あたり月数千ドルまでいく可能性がある。
だから実際には制限された形で提供されており、OpenAIはそのような市場セグメントではなく、成長に集中してグーグルに対抗する戦略を取っている。
Proモデルの言及が一度もないため、この人の意見は全く信頼できない。
私の印象では、GPT-5 Proがo3-proより圧倒的に良いというわけではない(あるいは全く違うかもしれない)。ずっと遅く、出力品質は同じくらいだ。
私のネットワークを確認したが、GPT-5 Proを使っている人は一人もいなかった。
この意見に同意するが、より優れたモデルを一般向けに公開する意図もあると思う。
ProモデルはAPIで使えないと聞いているが、合っているか?
同意する。
この種の投稿は特にイライラする。
なぜ自分で分析して「なぜGPT-5がつまらないのか」を書く代わりに、ソーシャルメディア反応だけを集め、全ての批判を「衝撃的」あるいは「強い攻撃」だと煽って自分の意見を説得しようとするのか。
あまりに一方的で、ジャーナリズムではなく、オリジナル分析でもない。
どうもAI関連記事は本質的に好奇心がなく、嘲笑やけなすことに偏る傾向があるようだ。
Gary Marcusは常に分析が浅い。
Gary Marcusは常に、AIが実際には動いていないと主張する。的中した意見はほぼ偶然程度だ。
GPT-5が過剰広告に見合ったか、どのような反応を受けているかに関するブログ投稿だ。
本当の意見を見つけるのがますます難しくなっているのは現実的な問題だと考える。
私の経験では、今回の「アップグレード」はPlusユーザーにとって大きなダウングレードだ。
GPT-5はO3より回答品質が不足しており、十分に思考する回数も少なく、O3のようにWeb検索を使わない。
自分で『thinking』を選び、明確に指示しても解決しない。
いまはGeminiを使わないと同等の品質が得られない。
さらにカスタムGPT(関連情報)も壊れており、私のカスタム文法チェッカーGPTはモデルに関係なく命令を無視する。
Deep researchオプションもおかしく、選択してもそのまま答え、指示してもほとんど変わらない。
Projectsも同様に壊れているようだ。
いったん無料プランへ追い込むか、来年初めから広告を入れるつもり、あるいは200ドルのプランへ誘導するつもりに見える。
ハルシネーション(誤情報)がかなり深刻。
AIコミュニティにはMarcusのような独立した専門家がもっと必要だ。
業界の煽りや内部基準の変更(例「社内でAGIに到達」など)に振り回されず、誠実性と透明性を保つべきだ。
本人のスタイルにかかわらず、Marcusはスケーリング法則の限界やLLM系AIの本当の推論不足(分布外一般化)など多くの問題を正確に指摘した前例がある。
業界は当初は否定し、後からPrompt Chain、RLベースLLMなど新しいものを売りに出すとき、あたかも自分の発見だと言うのがいつものことだった。
過大評価の流れには批判的な声が必ず必要。
強く反対。
この種のAIの限界や誤った認識のほとんどをMarcusに結びつけるべきではない。
GPTに今最も必要な改善点は『分からなければ分からないと言うこと』だ。
今日、Cyberpunk 2077のMODでredscriptを使ってNPCを自動生成する方法を調べようとしたが、かなり難しくやっと見つけた。
ChatGPT 5は『リサーチ』すると言いつつAPIをでっち上げたり、何度も事実でないことを指摘されてもハルシネーションだけを繰り返す。
30分自分の時間を無駄にした。素直に自分が知らないと言っていれば1分でわかったことだ。
ChatGPTが何かを知っていると勘違いするな。
同意する。
実際には何も「知って」いない。
「分からなければ分からないと言うこと」が必要だという点に同意。
この改善作業は実際に進んでおり、OpenAIの公式資料にも言及されている。
彼の「とにかく当てはめようとするこだわり」が、正しい事実自体を曖昧にしていると感じる。
ハイブリッドsymbolic/transformerシステムの議論は興味深い。
リンク先の記事では、数学をPythonに委任することでGrok 4が数学で成功できた例を示している。
個人的にはsymbolic優先システム、つまり本当の『ハード』数学はシンボリック方式で、推論が必要な領域だけをmonadで扱うアプローチをもっと見てみたい。
AloeのニューロシンボリックシステムがOpenAIのdeep research GAIAベンチマーク点を20ポイント差で上回った。
GPT-5で起きた独特の問題で、GPT-4にはなかった現象だ。
会話スレッドで文脈がいきなり途切れたり、次の回答を正しく理解できないことがある。
何かコンテキストクリーニングのプロセスが介在しているようで、これまでの会話の要点をまとめずに先へ進んでいく感覚だ。
そのため実際に使えるコンテキストがかなり小さくなっている可能性があり、この現象はよく発生する。
『直近の会話内容を見て』と依頼すると少し良くなる。
私の場合、回答がずっと短くなったように思う。
「人々は奇跡を期待していたが、GPT-5は単なる最新のインクリメンタルな発展にすぎない」
もうトレーニングデータは残っていない。
AIのあらゆる改善はこれからは構造変更にかかっている。
すべての最新モデルは、新しい情報についてローカルの限界点に到達している。
先行研究では、意図的に投入された実データと主に合成データを組み合わせてfrontier LLMを訓練するのが有効だという結論がある。
このことを2年前にここで言ったことがあった。
本当にGPT-5はすでに世界中の動画データを全部学習しているということだろうか?
新しいトレーニングデータは毎日新たに作られないのか?
OpenAIが最高のモデルを作ったとしても、『GPT-5』という名前に、コミュニティとOpenAIがすでにハイプを乗せてしまえば失敗は予定されていたことになる。
反対にOpenAIはミームと過大広告を拒否し、漸進的改善を選ぶべきだったが、そうすれば投資家・ストーリー・AIエコシステムの維持に不利だっただろう。
私たちはすでに『頂点』に達している。
sam altmanが直接そのような期待を作って煽る役割を果たしたのも事実だ。
本当にAGIが到来したら、人々が『期待はずれだった』という論理をどう展開するのか気になる