Andrej KarpathyによるGPT-4.5レビュー

xguru · 2025-02-28T10:00:02+09:00

本日、OpenAIがGPT-4.5をリリース GPT-4のリリース以降、約2年間待ち望んでいた理由は、今回のリリースが単により大きなモデルを訓練したときに得られる改善効果を定量的に測定する機会を与えてくれるため各バージョンの「0.5」は、おおよそ10倍多い事前学習計算量を意味する GPTモデルの発展過程 GPT-1 → ほとんど意味のある文章を生成できない GPT-2 → ぎこちないおもちゃレベル GPT-2.5 → 事実上スキップされ、そのままGPT-3へ移行 GPT-3 → 興味深い進歩を示した GPT-3.5 → 実際の製品としてリリースできるほど進化し、ChatGPTブームを引き起こした GPT-4 → さらに改善されたが、はっきりした「おおっ」と思えるポイントを見つけるのは難しかった特にGPT-4 vs GPT-3.5 を比較してみると: 語彙の選び方がより創造的で、プロンプトのニュアンスをよりよく理解する比喩(analogy)がより適切で、ユーモアの感覚も少し向上珍しい知識領域でも理解度が向上し、ハルシネーションの発生頻度がやや減少全体的にあらゆるものが20%ずつ良くなった感覚だったこれはまるで水位が上がることで、すべての船が浮かび上がるような改善だった GPT-4.5を試した印象 GPT-4.5はGPT-4より10倍多い事前学習を経ているそして試してみた結果、再び先ほどの20%と同じパターンが繰り返されたあらゆるものが少しずつ良くなっていたただし、はっきりと指摘できる**「明確な革新ポイント」**はないそれでも、一般的なモデル改善方向の傾きを測るうえで興味深く重要な指標になる GPT-4.5はまだ「推論(reasoning)」モデルではない GPT-4.5には事前学習、教師あり学習(SFT)、RLHFのみが適用されているそのため、数学、コーディングなど論理的推論が必要な問題では改善していないこれらの領域では強化学習(RL)と体系的な思考訓練が必要で、現時点ではOpenAI o1モデルが最高性能を示しているおそらくOpenAIはGPT-4.5をベースに強化学習を適用して「考える」モデルへ発展させる可能性が高いそれによって数学、論理、コーディング能力を向上させようとするはず GPT-4.5の強み: EQ 論理的推論ではなく、世界知識、創造力、類推、ユーモアの感覚など、感情知能(EQ)が重要な作業で改善が見られるそこでインタラクティブな実験を行う予定: 「GPT-4 vs GPT-4.5比較投票」 5種類のユーモア感覚を評価するプロンプトを選定各プロンプトについてGPT-4とGPT-4.5の応答を比較 X(旧Twitter)で画像(プロンプトと応答) + 投票機能を活用して実験を実施 8時間後にどちらのモデルの応答だったかを公開予定

(x.com)

3 ポイント投稿者 xguru 2025-02-28 | まだコメントはありません。 | WhatsAppで共有

本日、OpenAIがGPT-4.5をリリース
GPT-4のリリース以降、約2年間待ち望んでいた理由は、今回のリリースが単により大きなモデルを訓練したときに得られる改善効果を定量的に測定する機会を与えてくれるため
- 各バージョンの「0.5」は、おおよそ10倍多い事前学習計算量を意味する
GPTモデルの発展過程
- GPT-1 → ほとんど意味のある文章を生成できない
- GPT-2 → ぎこちないおもちゃレベル
- GPT-2.5 → 事実上スキップされ、そのままGPT-3へ移行
- GPT-3 → 興味深い進歩を示した
- GPT-3.5 → 実際の製品としてリリースできるほど進化し、ChatGPTブームを引き起こした
- GPT-4 → さらに改善されたが、はっきりした「おおっ」と思えるポイントを見つけるのは難しかった
特にGPT-4 vs GPT-3.5 を比較してみると:
- 語彙の選び方がより創造的で、プロンプトのニュアンスをよりよく理解する
- 比喩(analogy)がより適切で、ユーモアの感覚も少し向上
- 珍しい知識領域でも理解度が向上し、ハルシネーションの発生頻度がやや減少
- 全体的にあらゆるものが20%ずつ良くなった感覚だった
- これはまるで水位が上がることで、すべての船が浮かび上がるような改善だった

GPT-4.5を試した印象

GPT-4.5はGPT-4より10倍多い事前学習を経ている
そして試してみた結果、再び先ほどの20%と同じパターンが繰り返された
あらゆるものが少しずつ良くなっていた
- ただし、はっきりと指摘できる**「明確な革新ポイント」**はない
- それでも、一般的なモデル改善方向の傾きを測るうえで興味深く重要な指標になる

GPT-4.5はまだ「推論(reasoning)」モデルではない

GPT-4.5には事前学習、教師あり学習(SFT)、RLHFのみが適用されている
そのため、数学、コーディングなど論理的推論が必要な問題では改善していない
これらの領域では強化学習(RL)と体系的な思考訓練が必要で、現時点ではOpenAI o1モデルが最高性能を示している
おそらくOpenAIはGPT-4.5をベースに強化学習を適用して「考える」モデルへ発展させる可能性が高い
それによって数学、論理、コーディング能力を向上させようとするはず

GPT-4.5の強み: EQ

論理的推論ではなく、世界知識、創造力、類推、ユーモアの感覚など、感情知能(EQ)が重要な作業で改善が見られる

そこでインタラクティブな実験を行う予定: 「GPT-4 vs GPT-4.5比較投票」

5種類のユーモア感覚を評価するプロンプトを選定
各プロンプトについてGPT-4とGPT-4.5の応答を比較
X(旧Twitter)で画像(プロンプトと応答) + 投票機能を活用して実験を実施
8時間後にどちらのモデルの応答だったかを公開予定

Andrej KarpathyによるGPT-4.5レビュー

GPT-4.5を試した印象

GPT-4.5はまだ「推論(reasoning)」モデルではない

GPT-4.5の強み: EQ

そこでインタラクティブな実験を行う予定: 「GPT-4 vs GPT-4.5比較投票」

関連記事

まだコメントはありません。