EveryのGPT-5ハンズオンレビュー

(every.to)

11 ポイント投稿者 GN⁺ 2025-08-08 | 1件のコメント | WhatsAppで共有

GPT-5はChatGPTにおいて、速度・シンプルさ・応答品質が大幅に改善され、ほとんどの一般ユーザーにとって最も優れたモデルと評価される
API価格では競合に対して強力な価格競争力を確保しており、特にGPT-5-miniはGoogle Gemini 2.5 Flashより安く、GPT-5 StandardはClaude 4 Opusの12分の1の価格
日常業務・ペアプログラミング・研究・デバッグでは優秀だが、エージェント的プログラミングと文章品質評価には限界がある
チームレビューではGPT-5が定義された作業・コード統合・ドラフト作成・深い分析に強みを見せた一方、長時間の自律作業や創造的な大規模開発では物足りなさがあった
ベンチマークテストでは特定問題の解決・アプリ機能の実装・研究能力は優れていたが、ゲーム・UIデザイン・文章の一貫性などではOpus 4.1の方が高く評価された

ChatGPTでのGPT-5

速度が際立った特徴で、簡単な問い合わせには即座に応答し、複雑なリクエストには自ら時間をかけて、より深い回答を提供する
モデル選択メニューを廃止し、**自動切り替え（auto-switcher）**方式を導入。リクエストに応じて非推論版・推論版を自動で選択
- 単純な知識質問には高速な非推論版を使用
- 複雑な生成・コーディング・分析リクエストには推論版を使用
回答は構造化された小見出し、余白、太字など、読みやすさ重視で構成される
Canvasではフロントエンドアプリを一度で生成（one-shot）できるが、コード1,000行制限や一部機能制約がある
reasoningモデルを無料・標準で提供することで、大衆向けAI体験の質を引き上げている

APIでのGPT-5

GPT-5-mini: 入力100万トークンあたり$0.25 → Google Gemini 2.5 Flash（$0.30）より安い
GPT-5 Standard: 入力100万トークンあたり$1.25 → Google Gemini 2.5 Proと同額、Claude 4 Opus（$15）の12分の1の価格
出力トークン単価はo4-miniより高いが、**プロンプト追従性（steerability）**が高く、細かな指示が必要な作業で強みを持つ
価格対性能の面から、API市場で競合ユーザーの乗り換えを促す可能性が高い

エージェント的エンジニアリング

精密なバックエンド作業・デバッグ・コード理解には優れるが、長期間の自律的なコード作成やフロントエンドの大規模作業には非効率
Cursor・Codex CLIは**完全委任型（fully agentic）**開発というより、ペアプログラミング中心に設計されている
Claude Codeと比べると、長期作業の継続性・自律性が不足し、作業量の処理速度も低い

用途別の詳細評価

日常業務: モデル選択なしで素早く質疑応答でき、調査が必要な質問も包括的に処理し、ハルシネーション頻度も減少
ペアプログラミング: バグ修正・機能実装・大規模コードベース理解に卓越し、速度・正確性ともに高い
ライティング: AI特有の文章パターンが減り、表現力も多様で、ドラフト作成に適しており、特定スタイルの学習も可能
エージェント的エンジニアリング: 長期プロジェクトや自律的コード生成では停止が多く、出力品質も低い
文章編集: 文章品質評価や文の自然さの判定に一貫性がなく、信頼性は低い

チームラウンドテーブルのインサイト

Kieran Klaassen（Cora責任者）: GPT-5は細かな指示に基づく反復作業に適しており、Sonnet 3.5を置き換えられる水準

「GPT-5は、あなたが言った通りに動く。慎重に、小さなステップを踏み、決してコースを外れない――そしてそれが私の抱える問題でもある。コーディングには強いが、エージェント的作業に最適化されてはいない。より伝統的な反復開発プロセスでは、『これは良いから次はあれをやってほしい』と指示すれば扱いやすい。だがそれは2024年にAIと働いていたやり方だ。GPT-5は未来への飛躍ではなく、Sonnet 3.5キラーだ。」
Danny Aziz（Spiral責任者）: 複雑なコード統合など範囲が明確な作業に最適で、長期レビューや大規模分析ではClaudeを好む

「GPT-5の魔法のような瞬間は、2つの複雑なコードベースを統合したときだった。私が使っていたオープンソースのフレームワークで欲しい機能が実現できなかったので、別のフレームワークのコードを統合してくれと頼んだ。一発では終わらなかったが、一緒にゴールへ近づいていく協業感があった。明確でよく定義されたコーディング作業ではGPT-5を好んで使う。コードレビューのような長期エージェント作業では依然としてClaude Codeを使うが、行き詰まったときや深く考えるのが面倒なときには、GPT-5が目的地まで連れていってくれる。」
Alex Duffy（AI教育責任者）: 無料ユーザーにとってはGPT-4oからの大きなアップグレードであり、大量データ処理・定型作業に強み

「消費者にとってGPT-5はGPT-4oに比べて明らかなアップグレードだ。無料ユーザーなら体感差は大きい。プロユーザーは依然としてo3やOpusのような特化ツールを使えるが、開発者にとってGPT-5には、信頼できてプロンプトにしっかり従うモデルという価値がある。特に膨大な情報を高品質に要約・整理するのに向いている。出力トークン価格はo4-miniより高いが、その分だけ指示への追従力が優れている。GPT-5-miniはFlashと価格競争でき、速度さえ伴えば真のダークホースになり得る。」
広告
Naveen Naidu（EIR）: 4日間解けなかったアプリのフリーズバグをGPT-5との協業で解決

「自分が作っているAIディクテーションアプリ『Monologue』で、アプリがフリーズするバグを4日間見つけられなかった。Claude Codeでも日曜日だけで4時間かけたのに失敗した。GPT-5とはまるで同僚のように協業して、どの部分が問題かを追跡し、ついに正確なバグを見つけ出した。」
Katie Parrott（作家・AIオペレーションリード）: 初稿作成ではOpusより満足度が高く、インタビューや質問設計に強い一方、vibe codingは非効率

「ライティングではGPT-5を使ってアウトラインを初稿に変えたが、良かった。何度かのプロンプトでEveryのスタイルを学習させた後、『Atlanticの記事と人気のHacker News投稿の交差』のようなスタイルを指定すると、強い成果物が出た。AI文章でよく見かける『It’s not just X, but Y』のような決まりきったパターンが減っていた。インタビューを進める際にも質問の骨格をうまく作ってくれた。初稿作成ではOpusよりGPT-5の方が満足度が高かった。
ただし、Codexでvibe codingをするときは効率が落ちた。作業単位を小さく分けてしか処理しようとせず、毎回『続ける』を押さなければならなかった。Claudeのように次のステップの計画を説明してくれることもなかった。」
Yash Poojary（Sparkle責任者）: Swiftコーディングでは物足りないが、複雑な技術分析・設計・トレードオフ評価では最高水準

「私にとって重要なのはSwiftだけだ。GPT-5は最初はそれほど印象的ではなかった。特定の設定プロンプトを与えて初めて実用的になった。それでもSwiftコーディングではClaudeを置き換えるレベルではなかった。
しかし純粋なリサーチでは最高だった。例えばMacで重複ファイルを見つける方法を尋ねると、これまで見たAIの中で最も技術的に精密な分析を出してきた。まるでIQ140のシステムアーキテクトが、システムを3回作って学んだ教訓をすべて説明してくれるような感覚だった。純粋な実装にはClaudeを使うが、深い文脈・トレードオフ分析・設計議論ではGPT-5を使う。」
広告
Dan’s mom（一般ユーザー視点）: 情報量・読みやすさ・流れのすべてで、ChatGPTの中でも最高水準と評価

「このモデルは本当にすごい。これまでChatGPTで受け取ったどの回答よりもはるかに包括的だ。情報が読みやすく、流れも滑らかだ。このモデルは本物の金脈だ。」

ベンチマーク詳細結果

ライティング評価: 同じ文章でも結果の一貫性が不足し、Opusに比べて信頼性が低い
ワンショットのゲーム制作: 安定して実行できるが、創造性・面白さは不足し、Opus 4.1の方が高評価
AI Diplomacy: 基本プロンプトでの性能は低いが、最適化された指示ではFlashと同等で、steerabilityが強み
不可能なパズル: 1分10秒で解決し、o3より圧倒的に高速
ワンショットの音楽アプリ制作: GarageBandに似た機能を実装し、UIはシンプル。デザインはOpus 4の方が好まれた
その他のテスト: Pelican on a bicycle・thupベンチマークでClaudeとの性格の違いが明確

1件のコメント

anveloper 2025-08-11

GPT-5はほとんど10秒以上考える回答ばかり。これなら3〜4回は質問できたんじゃないか？と思いつつ、ああ、じゃあその分もっと質問しておけばよかったなという感じ。
技術的に優れているのかは分からず、ただ時間を多く使ってより良い結果を出しているようにしか見えない