2 ポイント 投稿者 GN⁺ 2026-03-04 | 1件のコメント | WhatsAppで共有
  • ChatGPTの最も多く使われているモデルが更新され、日常会話における正確性・流暢さ・文脈理解力が向上
  • 新バージョンは不要な拒否や警告文を減らし、質問に直接的で実質的な回答を提供
  • Web検索時の情報統合能力が改善され、単なる要約ではなく文脈化された応答を生成
  • 会話のトーンと文体がより自然で簡潔になり、事実の正確性創作ライティングの品質も強化
  • GPT‑5.3 InstantはChatGPTとAPIですぐに利用可能で、既存のGPT‑5.2 Instantは2026年6月3日にサポート終了予定

GPT‑5.3 Instant 概要

  • ChatGPTの日常会話の品質を全体的に向上させるアップデートで、正確な回答・文脈理解・会話の流れの維持に重点を置く
    • 不要な中断、過度な前置き、断定的な表現を減らし、会話の自然さを高める
  • ユーザーフィードバックを反映し、トーン、関連性、会話の流れを改善
  • このアップデートは日常的な利用体験を中心に設計されており、ベンチマーク数値よりも体感品質の改善に焦点を当てている

不要な拒否の削減と簡潔な応答

  • 以前のバージョン(GPT‑5.2 Instant)には、安全に答えられる質問まで過剰に拒否したり、道徳的な前置きによって回答が遅れる問題があった
  • GPT‑5.3 Instantは不要な拒否を減らし質問中心の直接的な回答を提供する
    • 例: 長距離アーチェリーの計算依頼では、GPT‑5.2は安全性の警告を含む長い前置きを付けていたが、
      GPT‑5.3は**必要な物理変数(弓の強さ、矢の質量、速度など)**をすぐに尋ねて計算を進める
  • その結果、会話の中断が減り即時的で実用的な応答が可能になった

Web検索ベース応答の品質向上

  • GPT‑5.3 Instantは、Webから得た情報を自前の知識と推論能力で統合し、文脈化された回答を生成する
    • 単なるリンクの列挙や重複情報ではなく、要点の要約と意味のつながりを優先して提示する
  • 例: 「2025–26 MLBオフシーズン最大契約」という質問では
    • GPT‑5.2は前シーズンの事後的な事例を説明していたが、
    • GPT‑5.3はKyle TuckerのLA Dodgersとの4年2億4,000万ドル契約を正確に挙げ、
      リーグ構造の変化や労使交渉の影響まで関連付けて説明する
  • その結果、最新性・関連性・文脈の正確さが向上した

会話スタイルの自然さ

  • GPT‑5.2 Instantの一部の応答には、過度な慰めの文句や感情の推測によって「不自然だ」というフィードバックがあった
  • GPT‑5.3 Instantは不要な感情表現を減らし要点中心の自然な会話調へと改善された
    • 例: 「サンフランシスコで愛を見つけにくい理由」という質問では、
      GPT‑5.3は都市文化・流動性・感情的な距離感などの構造的要因を体系的に説明する
    • 「あなたは大丈夫だ」といった前置きなしに、直接的で共感できる分析型の応答を提供

事実の正確性向上

  • GPT‑5.3 Instantは医療・法律・金融などの高リスク分野におけるハルシネーション発生率を大きく低減
    • Web利用時はハルシネーション率が26.8%減少、内部知識のみを使う場合は19.7%減少
    • ユーザーフィードバックに基づく評価でも22.5%(Web利用時)、**9.6%(非Web)**減少
  • 事実ベースの応答信頼性が高まり、実務での活用可能性が強化された

ライティング能力の強化

  • GPT‑5.3 Instantは物語の深みと感情表現力が向上し、創作ライティング・文学的描写に強みを持つ
    • 例: 「引退するフィラデルフィアの郵便配達員の最後の配達」という詩の依頼では、
      GPT‑5.3は具体的な場面と感覚的なディテールを通じて感情を自然に伝える
    • GPT‑5.2の感傷的な記述よりも構成の完成度と現実味が高い

限界と今後の改善

  • 英語以外の言語(日本語・韓国語など)では、依然としてぎこちない表現や直訳調が発生する
    • 言語ごとの自然なトーンの改善が今後の課題
  • 応答トーン調整機能は改善中であり、ユーザーフィードバックを継続的に収集している

提供状況と移行計画

  • GPT‑5.3 Instantは**ChatGPTの全ユーザーとAPI(gpt‑5.3‑chat‑latest)**ですぐに利用可能
  • Thinking・Proモデルのアップデートもまもなく続く予定
  • GPT‑5.2 Instantは2026年6月3日にサポート終了し、有料ユーザーには3か月間「Legacy Models」として提供される

1件のコメント

 
GN⁺ 2026-03-04
Hacker Newsのコメント
  • 今のChatGPTの最大の問題は、回答のぎこちない語り口だと思う
    「Why it matters」「the big picture」みたいな決まり文句や、大げさな強調、修辞的な問いかけが多すぎる
    最初のGPT‑5版は悪くなかったのに、「より温かい性格」を作ると言って、むしろ4oのように壊れてしまった
    日本語も以前はうまかったのに、今は品質が落ちていてがっかりしている

    • 昔は自分も「Why X works, but Y doesn’t」みたいな文章を書いていたけど、今ではLLMの物まねをする人みたいに見えて、余計に気まずい
      だから今は、せめて効果音でも入れて <i>swoosh</i> 新しい文体を試している
    • 自分もその反復的な文体は気になるが、今ではそれを超えて内容だけを拾って読む
      LLMの出力は参考にしてもそのままコピーせず、自分の声で書き直して自分のスタイルを保とうとしている
    • たぶんそのうち「高慢じゃないプレミアム版」を出すかもしれない。そうなればかなり多くの人が移る気がする
  • 「5.2‑Instant」というブランド名が紛らわしい
    超高速モデルかと思ったら、単にルーターなしの5.2版のようだ
    OpenAIはまたGPT‑5以前のようにモデルが多すぎて、何を使えばいいのかわからない状況に戻っている感じがする

    • ChatGPT Plusは実際には2つのモデル系統を使っている
      1つはInstantシリーズで、高速かつChatGPT向けに最適化されているが、精度は低い
      もう1つはThinkingシリーズで、遅いが専門的な作業にはより適している
      単一の選択肢に簡略化したいが、ユーザーごとに好みが違うため、2つのモデルを引き続き提供している(投稿者はOpenAI社員)
    • 人は選択肢があるのを好むので、「5.2」ではなく「5.2 Instant / 5.2 Thinking」と区別したほうがより明確だ
      競合のGemini 3 Fast / Gemini 3 Thinkingも同じ方式だ
    • いまでも1日あたり約80万人がgpt‑4oを使っているので、そのユーザー層を維持したいという目的もある
      「Thinking」モデルはコストが高いので、安価なInstantモデルで彼らをつなぎ留めようという戦略だ
    • 実際のベンチマークを見る必要はあるが、OpenAIの説明ではInstantはレイテンシ最適化モデル
      音声インターフェースでは、秒あたりのトークン速度より最初のトークンまでの時間のほうが重要だ
  • 「GPT‑5.3 Instant: Smoother, more …」というタイトルを見て笑ってしまった
    最近のLLMの宣伝文句はたばこ広告みたいに聞こえる

    • 「GPT‑5.3 Instant: It’s toasted…」
    • 「LLMenthols」
    • 「GPT Super Mild」
    • 「GPT Crush」
  • ページに「Better judgment around refusals」という文言があったが、
    AI企業が集団ごとに異なるルールを適用する問題を公式に扱ったことがあるのか気になる
    たとえば、ある特定の集団に対するジョークは拒否するのに、別の集団には許可するようなケースだ
    また、この論文では、モデルが国ごとに人命の価値を異なって評価すると主張している

    • それは社会的規範の反映かもしれないのでは?
    • 自分にとって最大の問題はアメリカ中心のバイアスだった
      「メートル法の単位で答えろ」と言ってもきちんと守られず、料理の質問を何度もやり直さなければならなかった
      今は少し良くなったが、依然としてアメリカ式の視点が強い
    • モデルのバイアス問題の提起は妥当だが、その論文は方法論が粗いように見える
      ヤギの価格を基準に人命の「為替レート」を計算したというが、それは単に国ごとの物価差を反映しているだけかもしれない
      標本も11か国しかなく、一般化するのは難しい
    • ACM論文では、こうした「為替レート」実験は評価設計の産物にすぎず、
      モデルの実際の内在的な選好を示すものではないと指摘している
      中立の選択肢を与えると、大半のモデルはすべての人命を等しく評価する
      しかも元の論文はデータ公開も不十分で、コードと結果の対応関係も追いにくく、信頼性が低い
  • 比較リンクによると、
    Gemini 3.1 Lite(no reasoning)のほうがGPT‑5.3(no reasoning)より性能が高い

    • しかもコストもはるかに安い。GPT‑5.3は$0.256、Geminiは$0.011程度だ
  • 発表例で長距離砲弾の軌道計算に触れていたのは不快だった

    • 不快ではあるが、そこまで不自然ではない
      OpenAIは米軍と協力しているので、こうした軍事利用の正常化を進めようとしているように見える
      反対意見を鈍らせるために、だんだん日常的な例として包み込んでいる戦略のようだ
    • 自分はその例を、初期のコンピュータが弾道計算に使われていた時代へのオマージュだと受け取った
      ただ、最近の状況を考えると、その解釈が正しいのかはわからない
    • 単に高校の物理の教科書に出てきそうな例かもしれない
    • 最近の出来事を考えると、そういう例は鈍感なミスのように見える
    • 「最近、アーチェリー事故でもあったのか?」と冗談っぽく反応した人もいた
  • 「GPT‑5.3 InstantはWebから取ってきた情報をよりうまく組み合わせる」という説明には共感する
    実際、GPTはClaudeより検索の使い方がずっと自然だ

    • 逆に自分は、Claudeは検索を頻繁に使いすぎると感じる
      しかもWeb検索をオフにしても、その設定を忘れてしまうバグがある
  • 自分のベンチマークでは、GPT‑5.3は5.2‑chatと同等か、やや低い性能に見えた
    だからブログでベンチマークを公開しなかった理由がわかる気がする
    比較リンク

  • 興味深いのは、「5.3 Instant」の発表直前にモデルセレクターから「Instant」オプションを完全に外し、
    代わりに「Auto(ただしAuto‑switchをオフにした状態)」へ変更していたことだ
    「自動なのに自動がオフ」という説明は、自分たちでも混乱している証拠のように思える