- ChatGPTの最も多く使われているモデルが更新され、日常会話における正確性・流暢さ・文脈理解力が向上
- 新バージョンは不要な拒否や警告文を減らし、質問に直接的で実質的な回答を提供
- Web検索時の情報統合能力が改善され、単なる要約ではなく文脈化された応答を生成
- 会話のトーンと文体がより自然で簡潔になり、事実の正確性と創作ライティングの品質も強化
- GPT‑5.3 InstantはChatGPTとAPIですぐに利用可能で、既存のGPT‑5.2 Instantは2026年6月3日にサポート終了予定
GPT‑5.3 Instant 概要
- ChatGPTの日常会話の品質を全体的に向上させるアップデートで、正確な回答・文脈理解・会話の流れの維持に重点を置く
- 不要な中断、過度な前置き、断定的な表現を減らし、会話の自然さを高める
- ユーザーフィードバックを反映し、トーン、関連性、会話の流れを改善
- このアップデートは日常的な利用体験を中心に設計されており、ベンチマーク数値よりも体感品質の改善に焦点を当てている
不要な拒否の削減と簡潔な応答
- 以前のバージョン(GPT‑5.2 Instant)には、安全に答えられる質問まで過剰に拒否したり、道徳的な前置きによって回答が遅れる問題があった
- GPT‑5.3 Instantは不要な拒否を減らし、質問中心の直接的な回答を提供する
- 例: 長距離アーチェリーの計算依頼では、GPT‑5.2は安全性の警告を含む長い前置きを付けていたが、
GPT‑5.3は**必要な物理変数(弓の強さ、矢の質量、速度など)**をすぐに尋ねて計算を進める
- その結果、会話の中断が減り、即時的で実用的な応答が可能になった
Web検索ベース応答の品質向上
- GPT‑5.3 Instantは、Webから得た情報を自前の知識と推論能力で統合し、文脈化された回答を生成する
- 単なるリンクの列挙や重複情報ではなく、要点の要約と意味のつながりを優先して提示する
- 例: 「2025–26 MLBオフシーズン最大契約」という質問では
- GPT‑5.2は前シーズンの事後的な事例を説明していたが、
- GPT‑5.3はKyle TuckerのLA Dodgersとの4年2億4,000万ドル契約を正確に挙げ、
リーグ構造の変化や労使交渉の影響まで関連付けて説明する
- その結果、最新性・関連性・文脈の正確さが向上した
会話スタイルの自然さ
- GPT‑5.2 Instantの一部の応答には、過度な慰めの文句や感情の推測によって「不自然だ」というフィードバックがあった
- GPT‑5.3 Instantは不要な感情表現を減らし、要点中心の自然な会話調へと改善された
- 例: 「サンフランシスコで愛を見つけにくい理由」という質問では、
GPT‑5.3は都市文化・流動性・感情的な距離感などの構造的要因を体系的に説明する
- 「あなたは大丈夫だ」といった前置きなしに、直接的で共感できる分析型の応答を提供
事実の正確性向上
- GPT‑5.3 Instantは医療・法律・金融などの高リスク分野におけるハルシネーション発生率を大きく低減
- Web利用時はハルシネーション率が26.8%減少、内部知識のみを使う場合は19.7%減少
- ユーザーフィードバックに基づく評価でも22.5%(Web利用時)、**9.6%(非Web)**減少
- 事実ベースの応答信頼性が高まり、実務での活用可能性が強化された
ライティング能力の強化
- GPT‑5.3 Instantは物語の深みと感情表現力が向上し、創作ライティング・文学的描写に強みを持つ
- 例: 「引退するフィラデルフィアの郵便配達員の最後の配達」という詩の依頼では、
GPT‑5.3は具体的な場面と感覚的なディテールを通じて感情を自然に伝える
- GPT‑5.2の感傷的な記述よりも構成の完成度と現実味が高い
限界と今後の改善
- 英語以外の言語(日本語・韓国語など)では、依然としてぎこちない表現や直訳調が発生する
- 応答トーン調整機能は改善中であり、ユーザーフィードバックを継続的に収集している
提供状況と移行計画
- GPT‑5.3 Instantは**ChatGPTの全ユーザーとAPI(gpt‑5.3‑chat‑latest)**ですぐに利用可能
- Thinking・Proモデルのアップデートもまもなく続く予定
- GPT‑5.2 Instantは2026年6月3日にサポート終了し、有料ユーザーには3か月間「Legacy Models」として提供される
1件のコメント
Hacker Newsのコメント
今のChatGPTの最大の問題は、回答のぎこちない語り口だと思う
「Why it matters」「the big picture」みたいな決まり文句や、大げさな強調、修辞的な問いかけが多すぎる
最初のGPT‑5版は悪くなかったのに、「より温かい性格」を作ると言って、むしろ4oのように壊れてしまった
日本語も以前はうまかったのに、今は品質が落ちていてがっかりしている
だから今は、せめて効果音でも入れて <i>swoosh</i> 新しい文体を試している
LLMの出力は参考にしてもそのままコピーせず、自分の声で書き直して自分のスタイルを保とうとしている
「5.2‑Instant」というブランド名が紛らわしい
超高速モデルかと思ったら、単にルーターなしの5.2版のようだ
OpenAIはまたGPT‑5以前のようにモデルが多すぎて、何を使えばいいのかわからない状況に戻っている感じがする
1つはInstantシリーズで、高速かつChatGPT向けに最適化されているが、精度は低い
もう1つはThinkingシリーズで、遅いが専門的な作業にはより適している
単一の選択肢に簡略化したいが、ユーザーごとに好みが違うため、2つのモデルを引き続き提供している(投稿者はOpenAI社員)
競合のGemini 3 Fast / Gemini 3 Thinkingも同じ方式だ
「Thinking」モデルはコストが高いので、安価なInstantモデルで彼らをつなぎ留めようという戦略だ
音声インターフェースでは、秒あたりのトークン速度より最初のトークンまでの時間のほうが重要だ
「GPT‑5.3 Instant: Smoother, more …」というタイトルを見て笑ってしまった
最近のLLMの宣伝文句はたばこ広告みたいに聞こえる
ページに「Better judgment around refusals」という文言があったが、
AI企業が集団ごとに異なるルールを適用する問題を公式に扱ったことがあるのか気になる
たとえば、ある特定の集団に対するジョークは拒否するのに、別の集団には許可するようなケースだ
また、この論文では、モデルが国ごとに人命の価値を異なって評価すると主張している
「メートル法の単位で答えろ」と言ってもきちんと守られず、料理の質問を何度もやり直さなければならなかった
今は少し良くなったが、依然としてアメリカ式の視点が強い
ヤギの価格を基準に人命の「為替レート」を計算したというが、それは単に国ごとの物価差を反映しているだけかもしれない
標本も11か国しかなく、一般化するのは難しい
モデルの実際の内在的な選好を示すものではないと指摘している
中立の選択肢を与えると、大半のモデルはすべての人命を等しく評価する
しかも元の論文はデータ公開も不十分で、コードと結果の対応関係も追いにくく、信頼性が低い
比較リンクによると、
Gemini 3.1 Lite(no reasoning)のほうがGPT‑5.3(no reasoning)より性能が高い
発表例で長距離砲弾の軌道計算に触れていたのは不快だった
OpenAIは米軍と協力しているので、こうした軍事利用の正常化を進めようとしているように見える
反対意見を鈍らせるために、だんだん日常的な例として包み込んでいる戦略のようだ
ただ、最近の状況を考えると、その解釈が正しいのかはわからない
「GPT‑5.3 InstantはWebから取ってきた情報をよりうまく組み合わせる」という説明には共感する
実際、GPTはClaudeより検索の使い方がずっと自然だ
しかもWeb検索をオフにしても、その設定を忘れてしまうバグがある
自分のベンチマークでは、GPT‑5.3は5.2‑chatと同等か、やや低い性能に見えた
だからブログでベンチマークを公開しなかった理由がわかる気がする
比較リンク
興味深いのは、「5.3 Instant」の発表直前にモデルセレクターから「Instant」オプションを完全に外し、
代わりに「Auto(ただしAuto‑switchをオフにした状態)」へ変更していたことだ
「自動なのに自動がオフ」という説明は、自分たちでも混乱している証拠のように思える