EveryのGPT-5ハンズオンレビュー
(every.to)- GPT-5はChatGPTにおいて、速度・シンプルさ・応答品質が大幅に改善され、ほとんどの一般ユーザーにとって最も優れたモデルと評価される
- API価格では競合に対して強力な価格競争力を確保しており、特にGPT-5-miniはGoogle Gemini 2.5 Flashより安く、GPT-5 StandardはClaude 4 Opusの12分の1の価格
- 日常業務・ペアプログラミング・研究・デバッグでは優秀だが、エージェント的プログラミングと文章品質評価には限界がある
- チームレビューではGPT-5が定義された作業・コード統合・ドラフト作成・深い分析に強みを見せた一方、長時間の自律作業や創造的な大規模開発では物足りなさがあった
- ベンチマークテストでは特定問題の解決・アプリ機能の実装・研究能力は優れていたが、ゲーム・UIデザイン・文章の一貫性などではOpus 4.1の方が高く評価された
ChatGPTでのGPT-5
- 速度が際立った特徴で、簡単な問い合わせには即座に応答し、複雑なリクエストには自ら時間をかけて、より深い回答を提供する
- モデル選択メニューを廃止し、**自動切り替え(auto-switcher)**方式を導入。リクエストに応じて非推論版・推論版を自動で選択
- 単純な知識質問には高速な非推論版を使用
- 複雑な生成・コーディング・分析リクエストには推論版を使用
- 回答は構造化された小見出し、余白、太字など、読みやすさ重視で構成される
- Canvasではフロントエンドアプリを一度で生成(one-shot)できるが、コード1,000行制限や一部機能制約がある
- reasoningモデルを無料・標準で提供することで、大衆向けAI体験の質を引き上げている
APIでのGPT-5
- GPT-5-mini: 入力100万トークンあたり$0.25 → Google Gemini 2.5 Flash($0.30)より安い
- GPT-5 Standard: 入力100万トークンあたり$1.25 → Google Gemini 2.5 Proと同額、Claude 4 Opus($15)の12分の1の価格
- 出力トークン単価はo4-miniより高いが、**プロンプト追従性(steerability)**が高く、細かな指示が必要な作業で強みを持つ
- 価格対性能の面から、API市場で競合ユーザーの乗り換えを促す可能性が高い
エージェント的エンジニアリング
- 精密なバックエンド作業・デバッグ・コード理解には優れるが、長期間の自律的なコード作成やフロントエンドの大規模作業には非効率
- Cursor・Codex CLIは**完全委任型(fully agentic)**開発というより、ペアプログラミング中心に設計されている
- Claude Codeと比べると、長期作業の継続性・自律性が不足し、作業量の処理速度も低い
用途別の詳細評価
- 日常業務: モデル選択なしで素早く質疑応答でき、調査が必要な質問も包括的に処理し、ハルシネーション頻度も減少
- ペアプログラミング: バグ修正・機能実装・大規模コードベース理解に卓越し、速度・正確性ともに高い
- ライティング: AI特有の文章パターンが減り、表現力も多様で、ドラフト作成に適しており、特定スタイルの学習も可能
- エージェント的エンジニアリング: 長期プロジェクトや自律的コード生成では停止が多く、出力品質も低い
- 文章編集: 文章品質評価や文の自然さの判定に一貫性がなく、信頼性は低い
チームラウンドテーブルのインサイト
- Kieran Klaassen(Cora責任者): GPT-5は細かな指示に基づく反復作業に適しており、Sonnet 3.5を置き換えられる水準
「GPT-5は、あなたが言った通りに動く。慎重に、小さなステップを踏み、決してコースを外れない――そしてそれが私の抱える問題でもある。コーディングには強いが、エージェント的作業に最適化されてはいない。より伝統的な反復開発プロセスでは、『これは良いから次はあれをやってほしい』と指示すれば扱いやすい。だがそれは2024年にAIと働いていたやり方だ。GPT-5は未来への飛躍ではなく、Sonnet 3.5キラーだ。」
- Danny Aziz(Spiral責任者): 複雑なコード統合など範囲が明確な作業に最適で、長期レビューや大規模分析ではClaudeを好む
「GPT-5の魔法のような瞬間は、2つの複雑なコードベースを統合したときだった。私が使っていたオープンソースのフレームワークで欲しい機能が実現できなかったので、別のフレームワークのコードを統合してくれと頼んだ。一発では終わらなかったが、一緒にゴールへ近づいていく協業感があった。明確でよく定義されたコーディング作業ではGPT-5を好んで使う。コードレビューのような長期エージェント作業では依然としてClaude Codeを使うが、行き詰まったときや深く考えるのが面倒なときには、GPT-5が目的地まで連れていってくれる。」
- Alex Duffy(AI教育責任者): 無料ユーザーにとってはGPT-4oからの大きなアップグレードであり、大量データ処理・定型作業に強み
「消費者にとってGPT-5はGPT-4oに比べて明らかなアップグレードだ。無料ユーザーなら体感差は大きい。プロユーザーは依然としてo3やOpusのような特化ツールを使えるが、開発者にとってGPT-5には、信頼できてプロンプトにしっかり従うモデルという価値がある。特に膨大な情報を高品質に要約・整理するのに向いている。出力トークン価格はo4-miniより高いが、その分だけ指示への追従力が優れている。GPT-5-miniはFlashと価格競争でき、速度さえ伴えば真のダークホースになり得る。」
- Naveen Naidu(EIR): 4日間解けなかったアプリのフリーズバグをGPT-5との協業で解決
「自分が作っているAIディクテーションアプリ『Monologue』で、アプリがフリーズするバグを4日間見つけられなかった。Claude Codeでも日曜日だけで4時間かけたのに失敗した。GPT-5とはまるで同僚のように協業して、どの部分が問題かを追跡し、ついに正確なバグを見つけ出した。」
- Katie Parrott(作家・AIオペレーションリード): 初稿作成ではOpusより満足度が高く、インタビューや質問設計に強い一方、vibe codingは非効率
「ライティングではGPT-5を使ってアウトラインを初稿に変えたが、良かった。何度かのプロンプトでEveryのスタイルを学習させた後、『Atlanticの記事と人気のHacker News投稿の交差』のようなスタイルを指定すると、強い成果物が出た。AI文章でよく見かける『It’s not just X, but Y』のような決まりきったパターンが減っていた。インタビューを進める際にも質問の骨格をうまく作ってくれた。初稿作成ではOpusよりGPT-5の方が満足度が高かった。
ただし、Codexでvibe codingをするときは効率が落ちた。作業単位を小さく分けてしか処理しようとせず、毎回『続ける』を押さなければならなかった。Claudeのように次のステップの計画を説明してくれることもなかった。」 - Yash Poojary(Sparkle責任者): Swiftコーディングでは物足りないが、複雑な技術分析・設計・トレードオフ評価では最高水準
「私にとって重要なのはSwiftだけだ。GPT-5は最初はそれほど印象的ではなかった。特定の設定プロンプトを与えて初めて実用的になった。それでもSwiftコーディングではClaudeを置き換えるレベルではなかった。
しかし純粋なリサーチでは最高だった。例えばMacで重複ファイルを見つける方法を尋ねると、これまで見たAIの中で最も技術的に精密な分析を出してきた。まるでIQ140のシステムアーキテクトが、システムを3回作って学んだ教訓をすべて説明してくれるような感覚だった。純粋な実装にはClaudeを使うが、深い文脈・トレードオフ分析・設計議論ではGPT-5を使う。」 - Dan’s mom(一般ユーザー視点): 情報量・読みやすさ・流れのすべてで、ChatGPTの中でも最高水準と評価
「このモデルは本当にすごい。これまでChatGPTで受け取ったどの回答よりもはるかに包括的だ。情報が読みやすく、流れも滑らかだ。このモデルは本物の金脈だ。」
ベンチマーク詳細結果
- ライティング評価: 同じ文章でも結果の一貫性が不足し、Opusに比べて信頼性が低い
- ワンショットのゲーム制作: 安定して実行できるが、創造性・面白さは不足し、Opus 4.1の方が高評価
- AI Diplomacy: 基本プロンプトでの性能は低いが、最適化された指示ではFlashと同等で、steerabilityが強み
- 不可能なパズル: 1分10秒で解決し、o3より圧倒的に高速
- ワンショットの音楽アプリ制作: GarageBandに似た機能を実装し、UIはシンプル。デザインはOpus 4の方が好まれた
- その他のテスト: Pelican on a bicycle・thupベンチマークでClaudeとの性格の違いが明確
まだコメントはありません。