6 ポイント 投稿者 GN⁺ 2025-08-11 | 5件のコメント | WhatsAppで共有
  • GPT-5の期待に反し、実際の公開後、コミュニティの失望感は大きく高まった
  • GPT-5は既存モデルと実質的に大きな差別化がなく、むしろ一部ベンチマークでは逆に性能が悪化したことも確認された
  • 最新研究で、大規模言語モデル(LLM)の汎化の限界と分布シフト問題が依然として深刻であることが示された
  • OpenAIの技術リーダーシップ喪失、主要人材の離脱、競争他社の追い上げなどにより、企業価値の維持が不透明になった
  • AGI実現をめぐる主張への懐疑感が強まり、業界全体で**「純粋なスケーリング」アプローチ**の限界認識が広がっている

GPT-5公開と期待感

  • OpenAIが長い間告知を続けてきたGPT-5公開が、ついに実現した
  • CEOのSam Altmanは公開の前後で、自信に満ちた発言とマーケティングイメージを積極的に活用した
  • しかしGPT-5公開後、インフルエンサーを一部除けば、大半のコミュニティで失望感が主流となった
  • ユーザーは新モデルに対し大きく失望し、旧バージョンへの要求署名が実現する現象すら起きた
  • Altmanのマーケティングや主張とは対照的に、実際の使用レビューは明確に否定的評価へ傾いた

コミュニティとメディアの反応

  • OpenAI Reddit、Hacker Newsなど複数のコミュニティで、**エラー、ハルシネーション(hallucination)**などGPT-5の問題点が集中的に指摘された
  • 主要な性能ベンチマークでは、Grok 4など競合モデルに及ばないケースも見られた
  • 自動ルーティングといった新機能も、混乱と未熟さを露呈した
  • 期待値が急速に高まったコミュニティにおいて、GPT-5は逆に大きな失望を残した
  • 公開当日のPolymarket調査では、OpenAIのAIリーダーシップ信頼度が1時間の間に75%から14%へ急落した

構造的な限界:チェス、視覚理解、推論の問題

  • 著者や複数の専門家が指摘してきた基本的な推論エラーとチェス規則遵守の失敗は依然として存在する
  • 画像生成などの分野では、部分-全体関係、視覚的一貫性などで明確な限界が示された
  • 機械工学の博士号保持者や一般人であっても間違えないはずのレベルの問題で、GPT-5は誤りを犯した
  • 要約や読解などの基本タスクでも、複数の誤り事例が報告されている
  • GPT-5は穏やかな段階的改善モデルだが、昨年と比べて目立った革新は見られない

OpenAIの現状と展望

  • GPT-5は前作と比べて段階的改善の範囲にとどまり、致命的な欠点が繰り返された
  • 市場と業界ではOpenAIの技術リーダーシップへの信頼が低下している
  • 多くの主要人材が離脱し、競合他社を設立したり転職したりし、Anthropic、Google、Elon Muskらが急速に追い上げている
  • 価格引き下げ圧力、収益性の問題、Microsoftとの関係悪化など構造的リスクが拡大している
  • LLMベースのAGI実現可能性に対する懐疑とCEO Sam Altmanに対する信頼低下が深まっている

LLMの根本的な限界:汎化と分布シフトの問題

  • Arizona State University(アリゾナ州立大学)の最新論文で、Chain of Thought推論でさえも訓練分布から外れると崩壊する現象が確認された
  • Appleなど他社がすでに指摘してきた分布シフト(distribution shift)に脆弱な構造が最新モデルでも同様に確認された
  • これはLLMが継続的に本質的な限界に突き当たる根本原因であり、巨大なパラメータ数だけでは克服できないことが明らかになった
  • 数十億ドルが投入されたスケーリング戦略が、本質的な問題解決では失敗していることを示した
  • 新しいパラダイムを模索する必要性が広がっている

AI業界全体と「スケーリング」の限界

  • AGI、運転の自動化、過度に楽観的なタイムラインなど、誇張されたマーケティングが横行している
  • 性能を歪めたベンチマーク、ブラックボックス的評価、透明性不足は深刻である
  • 多くの人々が**「AGI」**という用語が投資家と一般大衆を惑わせる手段であることを認識し始めている
  • AIへの楽観論と過熱が同時に高まっている
  • 純粋なスケーリングアプローチが行き詰まりに直面しているのが現実である

代替案と結論

  • GPT-5はより安価になった可能性はあるが、チェス、推論、視覚、数理能力など質的な限界は依然として残る
  • Grok、Claude、Geminiなどの競合モデルも同様の問題を繰り返している
  • **分布シフト(distribution shift)**問題は依然として未解決のままである
  • 今後は神経記号(neurosymbolic)AIや世界モデルベース手法などの新たなアプローチが必要だという主張が出ている
  • 純粋なスケーリングではなく複合的なアルゴリズム革新こそがAGI実現の必須要素であることが再確認された

今後の論点予告とPS

  • 今週明らかになったLLMの限界に加えて、さらに深刻な科学的問題が明らかになる見込みが示唆されている
  • 次回のフォローアップ記事で別件について共有することを告知

まとめ

  • GPT-5公開前後で、業界とコミュニティの期待と反応、LLMの構造的限界、OpenAIの将来、AGIフレームの現実が幅広く議論された
  • 全体として、この内容はLLM、GPT-5の実質的な限界、AI投資/期待/失望、イノベーション論点、研究動向など、スタートアップとIT実務者に重要な示唆を与える

5件のコメント

 
gnsdl116 2025-08-12

過剰な悲観論のようだ。
懸念点は理解できるが、技術の発展過程が必ずしも常に上向きとは限らない。

 
mammal 2025-08-11

投稿を書いた人物が、ただでさえデタラメばかり言うGary Marcusだったから…

 
dongho42 2025-08-11

Googleのように、静かにshow&proveを出していれば、ここまでにはならなかったと思うんだけど、これまで「怖すぎる」「死の星はどうだ」「核爆弾を作ってしまった」みたいに、ハイプと言えばハイプのようなことをたくさん言ってきた自業自得じゃないかなと思います。

 
dongho42 2025-08-11

それに、発表でベンチマークを示す際に本当に痛々しいほど恥ずかしいミスをしていたことも、全体的な印象を悪くする原因になっていたと思います。

 
GN⁺ 2025-08-11
Hacker Newsの意見
  • 私は今でもGPT-5は実質的にはコスト削減戦略だと思う。GPUが必要な製品で10億人のユーザーを獲得しようとする成長志向の企業だからだ。

    • GPT-5 Proについて誰も話していないが、私は実際に試したところ、Grok 4 HeavyやOpus 4.1よりも明らかに優れていた。

    • 完全に最新の技術で、モデルを真の最大性能で回せば1人あたり月数千ドルまでいく可能性がある。

    • だから実際には制限された形で提供されており、OpenAIはそのような市場セグメントではなく、成長に集中してグーグルに対抗する戦略を取っている。

    • Proモデルの言及が一度もないため、この人の意見は全く信頼できない。

    • 私の印象では、GPT-5 Proがo3-proより圧倒的に良いというわけではない(あるいは全く違うかもしれない)。ずっと遅く、出力品質は同じくらいだ。

      • 依然として雑だし、要点を取り逃がす。
      • ただし、問題解決に対して新しいアプローチを提示する点は少し優れているように見える。
      • 私の第一印象では、5-proはo3-proより知識が0〜2%多く、創造性や独創性は5〜10%ほど高い。
      • モデルの「トーン」や性格は完全に同じ。
      • 特定のタスク(形式論理、データ分析、短い分析タスク)では本当に超人的なレベルで、GrokやGeminiのどの版よりも優れている。
      • しかし、叙述文作成や一般的なライティング用途ではKimi K2、Deepseek R1より明らかに下回る。
      • 特に驚くべきことに、最高の英語散文を書けるモデルが中国系である点だ。単にGPTの「AIスタイル」を使わないだけでなく、Kimiのレベルは実際に出版された詩人たちと同格だ。
    • 私のネットワークを確認したが、GPT-5 Proを使っている人は一人もいなかった。

      • 特にo3との比較フィードバックが本当に知りたい!
    • この意見に同意するが、より優れたモデルを一般向けに公開する意図もあると思う。

      • o3はすごく良かったが、多くの人はまだ使っていなかった。
      • ChatGPTを毎日使っている友人にo3を使ったか聞くと、ぼんやりした表情になる。
      • だから推論モデルを一般化する目的もあると思う。これはOpenAIのコスト上昇要因だ。
      • ただし、ルーティング層があるので、強力ユーザー側(HN利用者が大半)ではコスト削減の側面もある。
      • ただし、パワーユーザーはthinkingモデルの強制利用方法をすぐに覚えるだろう。
    • ProモデルはAPIで使えないと聞いているが、合っているか?

      • Codex CLIを通じてサブスク連携して使えるか気になる。
    • 同意する。

      • この決定のもう一つの背景には、ほとんどのユーザーにとっては既存モデルで十分だという点がある。
      • HNユーザーと違い、一般ユーザーは最新技術にそこまで興味がない。
  • この種の投稿は特にイライラする。

    • なぜ自分で分析して「なぜGPT-5がつまらないのか」を書く代わりに、ソーシャルメディア反応だけを集め、全ての批判を「衝撃的」あるいは「強い攻撃」だと煽って自分の意見を説得しようとするのか。

    • あまりに一方的で、ジャーナリズムではなく、オリジナル分析でもない。

    • どうもAI関連記事は本質的に好奇心がなく、嘲笑やけなすことに偏る傾向があるようだ。

      • AIは好きだが、意見が違う人の真剣な文章ならいくらでも読む。
      • しかしこうした種類の文章は別物で、相手批判以外は価値がない。
      • HNのモデレーションが悪くないと思っているのだが、この好奇心のない投稿はメインからなくなってほしい。
    • Gary Marcusは常に分析が浅い。

      • 彼の見解はJim Cramerの株式解説にかなり似ている。
      • まじめに『リバース・Gary Marcus』戦略で賭けたくなるほどだ。
    • Gary Marcusは常に、AIが実際には動いていないと主張する。的中した意見はほぼ偶然程度だ。

    • GPT-5が過剰広告に見合ったか、どのような反応を受けているかに関するブログ投稿だ。

      • これは完全に合法的なテーマ。
      • Gary Marcusのブログなので当然自己の意見に偏る。BBCの記事とは違う。
    • 本当の意見を見つけるのがますます難しくなっているのは現実的な問題だと考える。

      • オンラインではほぼ他者の意見を言い換えて喋るレベルで、不要にうるさく、浅いコンテンツがあふれている。
  • 私の経験では、今回の「アップグレード」はPlusユーザーにとって大きなダウングレードだ。

    • GPT-5はO3より回答品質が不足しており、十分に思考する回数も少なく、O3のようにWeb検索を使わない。

    • 自分で『thinking』を選び、明確に指示しても解決しない。

    • いまはGeminiを使わないと同等の品質が得られない。

    • さらにカスタムGPT(関連情報)も壊れており、私のカスタム文法チェッカーGPTはモデルに関係なく命令を無視する。

    • Deep researchオプションもおかしく、選択してもそのまま答え、指示してもほとんど変わらない。

    • Projectsも同様に壊れているようだ。

      • 指示を正しく守らず、スペイン語で応答したり質問を無視したりする。
      • 時々、自分と話しているような感覚で、どのキーを入力しても同じ不要な答えを出し続け、しかもスペイン語で返す。
    • いったん無料プランへ追い込むか、来年初めから広告を入れるつもり、あるいは200ドルのプランへ誘導するつもりに見える。

      • これからは広告なしの20ドルプランはないだろうと考える。
    • ハルシネーション(誤情報)がかなり深刻。

      • とても失望した。
  • AIコミュニティにはMarcusのような独立した専門家がもっと必要だ。

    • 業界の煽りや内部基準の変更(例「社内でAGIに到達」など)に振り回されず、誠実性と透明性を保つべきだ。

    • 本人のスタイルにかかわらず、Marcusはスケーリング法則の限界やLLM系AIの本当の推論不足(分布外一般化)など多くの問題を正確に指摘した前例がある。

    • 業界は当初は否定し、後からPrompt Chain、RLベースLLMなど新しいものを売りに出すとき、あたかも自分の発見だと言うのがいつものことだった。

    • 過大評価の流れには批判的な声が必ず必要。

      • LLM関連で最も大きな声は、経済的に利益を得る側だ。
      • 私もAIに反対しているわけではないが、すべての経済現象がこの技術で全部失業するという空気は本当におかしい(経済が厳しい本当の理由は別にあり、ほとんど各国のリーダーシップのせい)。
      • イノベーション速度が鈍れば、少なくとも私が使う製品が、AI機能を無理に取り付ける代わりに、実際の機能追加やバグ修正に再び集中できることを望む。
    • 強く反対。

      • このエッセイはRedditの不満投稿の寄せ集めに近く、直接テストした結果もなく、リリースの問題(5億人同時ローンチ)だけを扱っている。
      • こうした批判は、GPT-5のリリースで本当に重要なポイントを見落としている。実際これは初の『AIフルプロダクト』リリースで、いまやモデル改善から実サービス構想段階に移った。
      • 重要なのは、より速くなり、統合され、漸進的イノベーション(マルチモーダル相互作用、画像生成など)が可能になったということだ。
      • 特に長いコンテキストと長期目標維持能力で大きく進歩した。
      • Willisonも自身のコード作業の主力として使うと述べ、私も長く複雑なコーディング課題ではClaudeだけでなく従来最高モデル(o3-pro、Gemini)より明らかに優れていると感じている。
      • o3-proよりもコーディング速度がずっと速い。
      • 「Redditユーザーが4oに執着しているためこのリリースが嫌だ → oAI失敗」という分析は弱く、意味のない主張だ。
    • この種のAIの限界や誤った認識のほとんどをMarcusに結びつけるべきではない。

      • Marcusのせいだとは思わない。
  • GPTに今最も必要な改善点は『分からなければ分からないと言うこと』だ。

    • 今日、Cyberpunk 2077のMODでredscriptを使ってNPCを自動生成する方法を調べようとしたが、かなり難しくやっと見つけた。

    • ChatGPT 5は『リサーチ』すると言いつつAPIをでっち上げたり、何度も事実でないことを指摘されてもハルシネーションだけを繰り返す。

    • 30分自分の時間を無駄にした。素直に自分が知らないと言っていれば1分でわかったことだ。

    • ChatGPTが何かを知っていると勘違いするな。

      • 学習データに基づき、統計的に最も可能性の高い回答だけを生成している。
      • 内部知識システムを参照せず、ただ言語パターンを出力している。
      • あるアイデアを強調する形式(プロパガンダなど)で訓練は可能でも、知識を直接参照することはできない。
    • 同意する。

      • まるで完全な確信を持った同僚のようで、疑いなく信じてしまう。
      • だが実際には、そんなことが嘘である場合があまりに多い。本当にイライラする。
    • 実際には何も「知って」いない。

      • すべての結果はプロンプトに基づくハルシネーションに近い。
    • 「分からなければ分からないと言うこと」が必要だという点に同意。

      • フロンティアAI研究所の内部でもレビューと実験があったはずだ。
      • このような現象が珍しくないのは、モデルの限界が明確な証拠かもしれない。
    • この改善作業は実際に進んでおり、OpenAIの公式資料にも言及されている。

      • 関連リンク
      • GPT‑5(『thinking』オプション)では、不可能・情報不足・ツールなしの作業について、より率直に限界と対応を示すよう努力している。
      • 例えばCharXivマルチモーダルベンチマークで画像のないプロンプトを試した場合、o3は存在しない画像に対して86.7%の確率で自信満々に答えたが、GPT‑5は9%まで下がった。
      • 不可能なコーディング、マルチモーダル資産欠如の状況などでも、GPT‑5 reasoningはo3よりはるかに少なく誤答する。
      • 実際のChatGPTトラフィックベースの長い会話セットで、deception率を4.8%→2.1%に下げた。
      • なお、さらに改善が必要で研究は継続中。システムカード参照。
  • 彼の「とにかく当てはめようとするこだわり」が、正しい事実自体を曖昧にしていると感じる。

    • ハイブリッドsymbolic/transformerシステムの議論は興味深い。

    • リンク先の記事では、数学をPythonに委任することでGrok 4が数学で成功できた例を示している。

    • 個人的にはsymbolic優先システム、つまり本当の『ハード』数学はシンボリック方式で、推論が必要な領域だけをmonadで扱うアプローチをもっと見てみたい。

    • AloeのニューロシンボリックシステムがOpenAIのdeep research GAIAベンチマーク点を20ポイント差で上回った。

      • Garyは話が多く誇張もするが、LLMの限界についてはかなり把握している(aloe.inc)
  • GPT-5で起きた独特の問題で、GPT-4にはなかった現象だ。

    • 会話スレッドで文脈がいきなり途切れたり、次の回答を正しく理解できないことがある。

    • 何かコンテキストクリーニングのプロセスが介在しているようで、これまでの会話の要点をまとめずに先へ進んでいく感覚だ。

    • そのため実際に使えるコンテキストがかなり小さくなっている可能性があり、この現象はよく発生する。

    • 『直近の会話内容を見て』と依頼すると少し良くなる。

    • 私の場合、回答がずっと短くなったように思う。

  • 「人々は奇跡を期待していたが、GPT-5は単なる最新のインクリメンタルな発展にすぎない」

    • この記事で書く価値があったのはこの部分だけだ。
    • 人々は漸進的な進歩を期待するのが正しい。
    • 提供側は奇跡を約束してはならない。
    • 期待値の管理が重要。
    • 漸進的な進歩でも確かな進歩である。
    • ただし『AGIはGPTシリーズの後ろ側からこれからも続けて出る』という考えには同意しない。
  • もうトレーニングデータは残っていない。

    • AIのあらゆる改善はこれからは構造変更にかかっている。

    • すべての最新モデルは、新しい情報についてローカルの限界点に到達している。

    • 先行研究では、意図的に投入された実データと主に合成データを組み合わせてfrontier LLMを訓練するのが有効だという結論がある。

    • このことを2年前にここで言ったことがあった。

      • 高品質コンテンツを『セカンドインターネット』として略奪できるものはない。
      • 既存情報も徐々に強くロックされ始めている。
    • 本当にGPT-5はすでに世界中の動画データを全部学習しているということだろうか?

    • 新しいトレーニングデータは毎日新たに作られないのか?

      • YouTube、Facebook、TikTokなど。
      • 人間はコンテンツ生成マシンだ。
  • OpenAIが最高のモデルを作ったとしても、『GPT-5』という名前に、コミュニティとOpenAIがすでにハイプを乗せてしまえば失敗は予定されていたことになる。

    • 反対にOpenAIはミームと過大広告を拒否し、漸進的改善を選ぶべきだったが、そうすれば投資家・ストーリー・AIエコシステムの維持に不利だっただろう。

    • 私たちはすでに『頂点』に達している。

    • sam altmanが直接そのような期待を作って煽る役割を果たしたのも事実だ。

    • 本当にAGIが到来したら、人々が『期待はずれだった』という論理をどう展開するのか気になる