GPT-5.5 Codexの推論トークンのクラスタリングが性能低下につながる可能性
(github.com/openai)- OpenAI Codex issue #30364 は、
gpt-5.5の応答におけるreasoning_output_tokensが 516、1034、1552 といった固定値に偏る現象が、複雑な Codex タスクの品質低下に関連している可能性があると報告している - 分析対象は 2026年2月1日〜6月27日 UTC の Codex
token_countメタデータで、390,195件の応答レコードと 865 セッションから exact 516 イベント 3,363件が確認された gpt-5.5は全応答の 19.3% だったが、exact-516 イベントの 82.0% を占め、reasoning_output_tokens >= 516のうち exact 516 の比率は 44.0% で、non-GPT-5.5 の 1.3% を大きく上回った- 月別の exact-516 比率は 2026年2月の 0.11% から、5月 53.30%、6月 35.84% へ増加したが、同期間の平均および P90 の推論トークン数は低下しており、単純に推論トークン使用量が増えた現象ではなかった
- その後のコメントでは、Codex CLI、Codex Desktop、OpenCode でも類似の 516 クラスタリングと一部の誤答再現が共有され、暫定対応として
518·n−2パターンを検知して推論を継続させるローカルプロキシも提案された
問題の核心
- Codex issue #30364 は、
gpt-5.5応答のtoken_countメタデータにおいてreasoning_output_tokens = 516に過度に集中するパターンを報告している - さらに
1034、1552付近でも固定境界のように見えるスパイクが現れるという - 提起されている範囲は、隠れた chain-of-thought の切断を証明するという主張ではない
- より限定的な主張は、Codex テレメトリにおいて
gpt-5.5に特有の固定トークンクラスタリング異常が見られるということ - このパターンが、しきい値ベースの推論予算の動作と整合的に見える、というレベルの問題提起である
- より限定的な主張は、Codex テレメトリにおいて
- 関連 issue #29353 では、
gpt-5.5の実行が正確に 516 reasoning tokens で終了し誤答を返したタスク単位の再現が扱われており、今回の issue はより長い期間の集計証拠を追加している
分析環境とデータ
- 製品は Codex、最も関連するモデルは
gpt-5.5 - データソースは Codex
token_countメタデータ - 分析期間は 2026年2月1日〜6月27日 UTC
- 集計値:
- 応答レベルのトークンレコード: 390,195件
- セッション: 865件
- exact
reasoning_output_tokens = 516イベント: 3,363件 gpt-5.5の全応答に占める比率: 19.3%gpt-5.5の exact-516 イベント比率: 82.0%gpt-5.5exact-516 / >=516 比率: 44.0%- non-GPT-5.5 exact-516 / >=516 比率: 1.3%
モデル別・月別パターン
- モデル別の exact 516 / >=516 比率は
gpt-5.5で最も顕著だったgpt-5.5: 75,401件のレコード、44.0%gpt-5.4: 25,214件のレコード、19.8%gpt-5.2: 247,575件のレコード、0.34%gpt-5.3-codex: 13,333件のレコード、0.0%gpt-5.3-codex-spark: 26,179件のレコード、0.0%
- 月別の exact-516 クラスタリングは 2026年5月に急増した
- 2月: 0.11%
- 3月: 2.45%
- 4月: 4.25%
- 5月: 53.30%
- 6月: 35.84%
- 同期間に全体の推論トークン強度は低下していた
- 平均 reasoning tokens: 2月 268.1 → 5月 106.9 → 6月 168.5
- P90 reasoning tokens: 2月 772 → 5月 344 → 6月 515
- この組み合わせにより、exact-516 の増加は単純な推論トークン使用量の増加では説明しにくい、という問題提起がなされている
要請された内部検証項目
- Codex チームに対し、
gpt-5.5の推論予算、ルーティング、切断、fallback、scheduler の挙動が 516/1034/1552 付近での終了を引き起こしているのか調査してほしいと求めている - その挙動が意図されたものなら、exact 516 が正常終了点なのか、予算上限なのか、degraded tier なのか、別の内部しきい値なのかを明らかにしてほしいという要望も含まれる
- 提案された検証手順:
- モデル別に
reasoning_output_tokensを含むtoken_countイベントを照会 0、516、1034、1552の exact-value カウントを比較- モデル・日付別に
count(reasoning_output_tokens = 516) / count(reasoning_output_tokens >= 516)を計算 gpt-5.5とgpt-5.2、gpt-5.4、Codex 専用バリアントを比較- GPT-5.2 と GPT-5.5 で複雑なタスクを再実行し、exact-516 応答とより長い reasoning 応答を分けて品質評価を行う
- モデル別に
コメントで出た追加再現とクロスデータ
- GitHub Actions は関連する重複候補として #29353 を表示した
- 複数のユーザーが同じ問題を経験したとコメントしており、あるユーザーは前回の issue より今回の issue の方がよりデータに基づく報告だと評価した
sinnet3000は Codex CLI と OpenCode のローカルセッション保存領域からクロスクライアントデータを提示した- Codex
~/.codex/sessionsとarchived_sessionsの約 22.7k 件のtoken_countイベントでは、gpt-5.5は records 4,300、>=516 が 156、exact 516 が 88、比率 56.4% - OpenCode
opencode.dbの約 32.1k 件の assistant messages では、gpt-5.5は records 6,977、>=516 が 126、exact 516 が 90、比率 71.4% - Kimi、DeepSeek、MiMo、MiniMax、Gemini、Qwen、GLM など、一定量のデータがある non-OpenAI モデル合計約 24k records では exact 516 は 0件
- ただしこのデータは回答の正誤は評価しておらず、exact 516 クラスタリングの存在だけを確認したという caveat が付いている
- Codex
kyleboddyは Windows 11 の Codex Desktop で関連する挙動差を報告した- fresh な projectless Codex Desktop threads 5件で、同じ candy prompt を実行
- 高速な direct-
final_answer実行は29を返し誤答 - より遅く
commentaryが先に出た実行では21を返し正答 - fresh Windows-host Desktop threads では exact
reasoning_output_tokensを抽出できなかったため、その誤答実行が正確に 516 だったとは言えないと明記している
- 同じユーザーはローカルセッションメタデータから
gpt-5.5 / xhighの固定値クラスタリングも集計した- records 16,141、sessions 51、平均 reasoning 149.7、P90 429
=516が 438件、>=516が 1,298件、比率 33.74%=1034が 52件、=1552が 14件、=2070が 16件、=2588が 12件、=3106が 5件
Codex Linux CLI の再現結果
kyleboddyは Codex Linux CLI でも同じ candy prompt を使って再現したという- 環境:
- 製品: Codex CLI
- バージョン:
codex-cli 0.142.5 - プラットフォーム: Ubuntu Linux
6.8.0-111-generic, x86_64 - Node:
v24.14.0 - 認証モード: ChatGPT
- テストモデル:
gpt-5.5 - reasoning efforts:
xhigh,high - 比較対象モデル:
gpt-5.4 xhigh
- prompt は外部ツールを使わず、触覚で shape を区別できる candy bag 問題における最小 draw 数を問う内容
- 期待される答えは brute-force enumeration により 21 であると独立に確認された
- shape を触覚で区別できるため、9 round + 12 star candies を計画できるという説明が含まれる
- 結果:
gpt-5.5 xhighの完了した 4回の実行はすべてreasoning_output_tokens = 516で、最終回答23、26、28、15とすべて誤答gpt-5.5 highの 3回の実行もすべて516で、回答は22、21、27となり、正答は 1回のみgpt-5.4 xhighの 3回の実行は 6211、12274、10876 reasoning tokens を使用し、いずれも21で正答
- この結果は、
gpt-5.5が Codex において固定 516-token パスに入る可能性があり、そのパスがタスク品質の低下と相関しているかもしれない、という限定的な主張を補強している
暫定的な回避策の提案
dzshzxは upstream fix を待つ間、Codex の前段に置くローカル Responses プロキシ codexcomp を提案している- 動作方式は
518·n−2パターンを切断とみなし、推論を継続させる構造reasoning_tokens == 518·n − 2、すなわち 516、1034、1552 などで終わった round を truncated として扱う- tentative output を破棄し、その round の reasoning items と
encrypted_contentを次の入力として再生する phase:"commentary"と"Continue thinking..."メッセージを一緒に入れる- すべての round を 1つの downstream response に畳み込み、Codex には完成した回答のように見せる
- 設定には公式の top-level
openai_base_urlキーを使う- 例:
openai_base_url = "http://127.0.0.1:8787/v1" - built-in
openaiprovider は維持されるため、session grouping、remote compaction、remote-control は引き続き動作するとしている
- 例:
- 実際のログ例では、2回連続で 516 の後、3回目の round で clean 終了して最終回答が正しかったケースが示されている
- round 1: reason=516 → continue
- round 2: reason=516 → continue
- round 3: reason=291 → clean
- caveat:
- 非公式の回避策であり、upstream の非契約的な挙動に依存する
- continuation round では追加の実トークンを消費する
nwindow と 3-continuation cap で制限される- loopback-only、auth passthrough であり、credentials を読み取ったり保存したりはしないとしている
1件のコメント
Hacker News のコメント
これはかなり深刻に見えるし、codex cli でも簡単に再現できる
推論が必要なパズルのプロンプトを与えると、時々突然打ち切られたように、正確に 516 個の思考トークンだけを使って間違った答えを出す
6000〜8000 個の思考トークンを使う場合は正解を出す
adaptive thinking 側の問題かもしれないし、ローカルモデルならサーバー側の密かな変更を心配しなくてよいという点で、またローカルに一票入れたくなる
同じプロンプトを 10 回回したところ、4 回がこの 516 トークン問題で、その 4 回はすべて不正解だった。標本は小さいが、5.5 xhigh はほぼ半分の確率で短絡して性能が落ちる可能性があるように見える
問題空間は無限に広く、プロンプト間の類似性だけでどれだけ考えるべきかを判断するのは難しい。モデルはすでに思考予算に達する前にも考えるのをやめる
なぜ adaptive thinking の実装にここまで多くの労力を使うのか分からないし、むしろモデルが思考終了トークンをよりうまく出すよう訓練すべきではないかと思う
その場しのぎに感じる。モデルは適切な量の推論をするよう訓練されるべきだ: 推論 → 残る不確実性の推定 → 続けるか判断 → さらに推論 → 繰り返し
ほぼ毎日、品質が階段状に落ちるのを経験していて、普段は xhigh を使っていた
今年初めに Codex の非常に綿密なコーディングに頼っていた体験は消え、断続的に信じられないほど間抜けな実装が出てくるようになったので、OpenAI がこの問題を真剣に扱うまで Claude に乗り換えた
個人的には数か月前から見ているが、OpenAI が深刻に受け止めているようには見えなかった
それで 5.5 high → 5.5 xhigh → 5.4 high と移ってきた
5.4 high はこの 3 週間完全に安定していて、今はそれで満足している
時々 5.5 xhigh で作業を走らせ、100% 安定した状態に戻ったか確認しているが、今はこの信頼性問題を直すより 5.6 のリリースを待つ方向なのだろうと思っている
デジャヴみたいだ。4月の Claude Code の性能リグレッションとまったく同じに見える。その時 Claude のサブスクを解約して Codex に移った
今は両方ともトークン単位課金で使ってみて、ほとんどの作業は Fireworks の GLM 5.2 を使い、必要な時だけ大型モデルに金を払うことを考えている。ただ、損益分岐点が合うかどうかは確信がない
意図的でないとしても、品質が低下した製品から利益を得る構造を受け入れたり可能にしたりしたくない
正直、ChatGPT のリリース以降のどの時点よりも、オープンソースモデルやオープンな実行環境、たとえば Pi のようなものがずっと魅力的に見える
今は、こういう馬鹿げたことを二度と心配しなくて済むように、65,000 ドルをどう追加で稼ぐか考えている。OpenRouter のようなものの経済性は分かっている
2008年ごろ「クラウド」がマーケティング用語として浮上していた時期を思い出す。リッチクライアントへの期待値を下げ、ローカル所有権を削るサブスクリプションモデルで企業のマージンを増やすための包装のように見えた
その後、「真の自由・オープンソースソフトウェア」への熱狂と絶対主義にうんざりして、自分が若かったのだと思って流した
実際、多くのサブスクリプションモデルはある程度理解できるし、我慢もできる。ソフトウェアを作るには金がかかるし、2026年に Photoshop の年次アップグレードの価値を 200 ドルと見るのは公平でないかもしれない。ただ、20年間うまくいっていた UI を気まぐれに変え、クラシックな色見本のようなものを完全になくすのは愚かだ
そうなれば、月 200 ドル払っている業務必須ツールである Codex で、クラシック色見本プラグインを作ることはできる
自分のトークン使用量に対して月 200 ドルは公平か? かなり多く使った月には 10 億トークンくらい使ったかもしれない
だがまさにそれが問題だ。彼らは具体的にどの収益性が合っているのか分からないまま、際限なくレバーを引き続けるだろうし、債務満期のような茶葉占いを見る限り、少なくとも 2030年か 2032年まではそうなりそうだ
そんなことは一切考えたくない。モデルの好みや性能低下を評価し、自分が実際に報酬を得て作り保守している成果物に使う出力に、どんな謎のバックエンド実験が走っているのかに合わせて、AI への言い方のニュアンスを更新し続けたくない
AI は道具と共同作業者の間のどこかにあるが、推論段階でよく理解されていないノブやレバーをいじることで生じる気まぐれな「性格」変化には気が狂いそうになる。だから隅に置いた箱を指さして、自分以外は誰も変えない出力品質を正確に把握していたい
最近階段状に変わったのはモデル性能ではなく、コーダーたちの泣き言と不満の量だ
Codexがオープンソースなので、こうした問題が公開の場で明らかになり、扱われ得る点は良い
Codexがオープンソースであることには全般的に感謝しているが、この種の問題ではモデルが依然としてクローズドなので、大きな意味はなさそうに見える
記憶違いかもしれないが、トークン使用量とコード品質の基準では5.3が最高だったように思う。5.5のほうがうまく動きはするが、トークンを完全に食い尽くす
5.5やOpusと違い、ほぼあらゆる作業に使えるほど安く効率的で、それでいてかなり良く、Sonnetより好んでいた
数日前、OpenAIが画期的な最適化で計算コストを半分に減らしたと、ここで誰かが言っていた気がするが、それがこれなのか?
「OpenAIのエンジニアたちは今月初め、一部の同僚に対し、新たに発見した最適化のおかげで既存モデルの実行、つまり推論コストを半分以上削減する方法を見つけたと語った」と、その議論を知る人物が伝えた、という内容だった
自分の場合、暗号化された推論内容をbase64文字列の長さで見ると、この効果が現れる。しかし、サーバーが報告する推論トークンには現れない
そのため、純粋に暗号化や難読化の一部だと思っており、実際の問題ではないと見ている
GPTの最大の欠点は、思考過程が暗号化されているため、Kimi、GLM、DeepSeekよりもさらにブラックボックスである点だ。それでも思考の要約は受け取れるので、ぎこちないが使うことはできる
まれに言われる「モデルをバカにした」という話が、いつものユーザーの妄想ではなく、実際にモデルをバカにしたケースなのか?
イシューの詳細は意図的なこっそり弱体化の証拠ではなく、むしろその逆に近い。根本原因は雑で、一般ユーザーが独立検証可能な正確な詳細として報告できるほど、特に隠密でもない
「いつものユーザーの妄想」という表現は、公正でも好みに合うものでもない。コンテキストウィンドウを飲み込んで続きの出力を吐き出す魔法の流し台のようなAPIエンドポイントしか持っていなければ、残るのは主観的判断と推測、疑念だけだ
標準化されたモデルテストスイートがあっても、こっそり弱体化だと主張することは、結局その会社の人々の意図を読む行為になる。明示的な意図や基盤インフラのダウングレードがなくても、モデル品質は低下し得る
冗談めいた陰謀論や実際の弱体化の可能性を検討すること自体は、精神病ではない。心理診断用語をこのように乱用する流れは好きではない
もちろん、こうした判断に過度に確信を持つ人もいるだろうし、その人たちには当てはまるかもしれないが、それは少数だ。結局は誇張にすぎず、誰の役にも立たない
フロンティアモデルのサブスクリプションを売っておいて、時間が経つにつれて素早くナーフしているのに、誰も話題にしないのはおかしい
サーバー側でこっそり推論強度を下げるなら、割引くらいしてほしい
一方で私は5.5-highを毎日、並列のマルチタスクフローで使っているが、週間上限をかろうじて使い切る程度だ。計画と実装をすべて追って読むには、自分がHuman-as-a-Serviceとして十分に速くない。そういう面もある
スループット最適化のために、推論の推論を512トークンの倍数単位にまとめてバッチ処理しているのは明らかに見える
ピーク時間帯の需要に合わせてスケールする、非常に不誠実なやり方かもしれない。この話題ですでに、モデル性能の体感の主観性を笑う人たちがいるのは分かっているが、少なくとも5月の1か月間の自分のテストでは、米国がオンラインになる時間帯にモデルがあまり賢くないように見えた
数週間前の会社ブログ記事でも、重なる時間帯により一貫したパターンとして体感されたので、この点を指摘すべきだと感じた。追加分析のためにセッションログを保存しておくべきだった https://webesque.agency/blog/2026-06-19-llms.html