2 ポイント 投稿者 GN⁺ 2025-03-03 | 2件のコメント | WhatsAppで共有
  • GPT-4.5の公開にあわせて、OpenAIはまずモデルのシステムカードを公開した
  • 初期のシステムカードには "GPT-4.5 is not a frontier model"(GPT-4.5は最先端モデルではない)という文言が含まれていた
    • その後、公式ブログ投稿と更新版システムカードではこの文言が削除された
  • OpenAIの誰かはその文言を入れる必要があると感じたようだ。だが、「なぜOpenAIはこれをリリースしたのか?」
  • フロンティアモデルではないという主張に対する最大の矛盾は、GPT-4.5が一般の人々がテストできる最大のモデルだということ
    • この規模までモデルを拡張しても、私たちが測定している能力に明確な飛躍は起きていない
    • GPT-3.5 → GPT-4 への移行は 普通(Okay) から 良い(Good) だった
    • GPT-4o → GPT-4.5 の変化は 優れている(Great) から 非常に優れている(Really Great) という程度
  • 最新モデル同士の違いを見抜くのは非常に難しいため、AIに投資し進歩を期待する人々は、実際以上によく見えてしまう可能性がある
  • 期待されたほど大きな性能向上がないまま、スケーリングの経済的限界が明確になりつつある時点に来ている
    • Anthropicも同様の問題に直面しており、Claude 3.7以降は はるかに大きなモデルを訓練する ことが確認されている
  • GPT-4.5は 漸進的な進歩を示すモデルであり、これまでの革新的な飛躍とは異なる
    • AI研究において「単純な事前学習の拡張は、もはや従来レベルのブレークスルーを生み出せない」ことを示している
    • OpenAIは内部でGPT-4.5を長期間活用しており、GPT-4.5を基盤に他のモデルを訓練する用途に使っていた可能性が高い(カットオフ日が2023年であることから見て)

GPT-4.5の何が良いのか

  • (GPT-4.5とGPT-4oのパラメータ数についてはいくつかの推定値があるが、リーク情報に基づくものではないため、誤差が大きい点に注意が必要)
  • GPT-4.5は 非常に大きなモデルであり、Grok 3より大きい可能性が高い
    • GPT-4は 1兆(1T)超の総パラメータを持つMixture of Experts(MoE)モデルで、アクティブパラメータは約 200B と推定されていた
    • うわさでは、GPT-4oやGemini Proのようなモデルのアクティブパラメータは60Bまで小さくなっているという
    • つまり最近のモデルは、アクティブパラメータを減らし、インフラを最適化して速度とコストを改善する方向で進化している
  • GPT-4.5は GPT-4比で約10倍の計算量(10X compute) を必要とすると推定される
    • 5倍多いパラメータ + 2倍大きいデータセット = 10倍の計算量増加
    • 総パラメータは 5〜7兆(5T〜7T) に達する可能性があり、アクティブパラメータは約 600B と見込まれる
  • しかし、ここまで拡張しても性能向上を体感するのは難しい。
  • ここから状況はかなり奇妙になる。OpenAIが今回の発表で強調した2点
    • ハルシネーションの減少: モデルが事実でない情報を生成する頻度を減らす
    • 感情知能(Emotional Intelligence)の向上: 文脈や感情をよりよく理解し、表現できる
    • しかし、この2つは客観的に評価しにくい特性でもある
  • ベンチマーク性能(OpenAI提供データ基準)
    • SimpleQA: AIモデルの世界知識評価でGPT-4.5が大きな性能向上を示した
    • PersonQA: 個別人物に関する質問評価でも最高性能
    • GPQA (Google-proof QA): 情報検索なしで論理的推論を評価する指標でも優れた成績
  • リリース直後、AI専門家の間では GPT-4.5は使いやすく、文章もうまい という意見が出た
    • ただし、コードおよび技術的性能の評価では Claude 3.7、R1などの競合モデルと比べて中位レベル と見なされている
  • 文章スタイル比較(KarpathyのX(Twitter)アンケート結果)
    • GPT-4.5 vs. GPT-4o-latest: 多くのユーザーは GPT-4o-latestの文章スタイルをより好む
    • 理由は? GPT-4o-latestは、以前Orion1と呼ばれていたこの新モデルから蒸留された(distilled)モデルである可能性が高く、サイズがはるかに小さいため反復速度に圧倒的な差があり、そのぶん事後学習をよりうまく進められる可能性がある
  • これらすべては、OpenAIが ChatBotArenaランキングで再び1位を奪還するために支払う代償 でもある
    • GPT-4.5がそれを達成すると期待されているが、結果はまだ確定していない
  • 筆者が事前に実際に使ってみたところ、速度が遅く最初は不便だったが、信頼性が高いため使い続ける価値はある という
    • ただし、追加料金を払ってまでGPT-4.5を選ぶ必要はなく、OpenAIのo1 Proや他の有料サービスの方がコストパフォーマンスは高い

GPT-4.5の価格が高い理由

  • GPT-4のリリース当時の価格もかなり高く、実際にはGPT-4.5と似た水準だった
  • GPT-4.5の初期価格は以下の通り
    • 入力(Input): $75.00 / 1Mトークン
    • キャッシュ入力(Cached Input): $37.50 / 1Mトークン
    • 出力(Output): $150.00 / 1Mトークン
    • つまり、従来モデルより はるかに高い価格 で始まった
  • OpenAIの過去モデルも当初は高価だったが、その後段階的に 大幅値下げ された例がある
    • GPT-4(2023年3月リリース)
      • 当初は 入力100万トークンあたり$30、出力100万トークンあたり$60 で始まった
      • 32Kコンテキスト版はさらに高く、入力$60、出力$120 だった
    • GPT-4 Turbo(2023年11月リリース)
      • 大幅に安くなり、入力$10、出力$30 まで下がった
    • GPT-4o(2024年5月リリース)
      • さらに価格が下がって 入力$2.5、出力$10 となり、GPT-4比で10倍以上安くなった
    • このように、OpenAIは新モデルが出るたびに価格を大きく下げるパターンを見せている
  • 現時点でGPT-4.5の価格が高く設定されている理由は、リリース初期のため高いマージンを設定しているから と見られる
    • OpenAIは、このモデルが APIに継続して残るかは保証せず、ユーザーの反応を見て決める と言及している
  • 多くの専門家は、Nvidiaの次世代GPU Blackwell が登場すれば、より大きなモデルを効率的に運用でき、コストは下がると予想している
  • GPT-4からGPT-4 Turbo、GPT-4oへと価格が下がっていったように、GPT-4.5も今後GPT-4.5 Turboのような版が登場し、価格が下がる可能性が高い

スケーリングの未来

  • 言語モデルのスケーリングはまだ終わっていない
    • しかし、今回の発表がなぜこれほど奇妙に感じられたのかを振り返ることは、AIの進歩を見るうえで冷静さを保つために非常に重要だ
    • 私たちはすでに、さまざまなスケーリング手法の間に長所と短所が併存する時代 に入っている
  • 短く要約すると、「GPT-4.5は奇妙だが、時代を先取りしている」
    • GPT-4.5は単なるモデル拡張ではなく、新しいスケーリング手法が必要だというシグナル
    • これは、AIの発展には単純なモデルサイズの拡大(Scaling Up)だけでは不十分で、別のアプローチが必要だということを意味するが、私たちはすでに推論モデルの急速な進歩を通じてそれを理解していた
    • GPT-4.5の真のインパクトは、複数ライン の急速な進歩と統合されたときに発揮される
  • DeepSeekのR1論文とその後のRL研究では、モデルが大きいほどRLトレーニングがより効果的 という結論が出ている
    • OpenAIの o4モデルもGPT-4.5ベースの推論モデルを活用して訓練される可能性が高い
    • OpenAIの現在のモデルは、GPT-4.5がなければそれほど優れたものではなかっただろう
  • 早ければ 1年以内に大半のモデルがGPT-4.5規模まで進化し、速度もはるかに速くなる
    • 「バランスの取れた」改善は、より多くのアプリケーションをさらに堅牢にする助けになる
    • OpenAIやAI研究所の他の研究者たちは、既存インフラの限界を超える水準までモデルを拡張しようとしている
  • フロンティアラボがあらゆる拡張方向の限界を超えようとしないなら、十分なリスクを取っていないということになる
    • モデルを公開する必要はないが、OpenAIが実際になぜこれをやろうとしたのかは推測する価値がある
    • 現在ほかの内部システム、そして近いうちに他の外部製品でもGPT-4.5が使われる可能性が高いため、このモデルを公開することは回り道ではなく、次の段階へ進む自然なプロセス
  • GPT-4.5はフロンティアモデルではあるが、そのリリース自体がとりわけ刺激的というわけではない
    • AIの進歩はただではなく、多くの努力を必要とする
    • GPT-4.5そのものが重要なのではなく、このモデルが他の技術と組み合わさったときに本当の価値が現れる

2件のコメント

 
doolayer 2025-03-03

すでに多くのベンチマークが飽和した状態にある中で、使い勝手やハルシネーションなどに注力するのは当然の流れだと思います。

 
GN⁺ 2025-03-03
Hacker Newsの意見
  • GPT 4.5も2023年10月までの知識カットオフを持っている

    • このモデルは少なくとも1年前に事前学習が完了していた可能性がある
    • OpenAIはQ-star/strawberryのような別プロジェクトに集中していた可能性がある
  • OpenAIの推論モデルは期待されたほど強力ではないかもしれない

    • Gemini 2.0 Flash、Grok 3、Sonnet 3.7のような強力な非推論モデルが登場している
    • OpenAIは表向き何かをリリースする必要性を感じていた可能性がある
  • 価格はやや謎である

    • 最新の効率化テクニックがない古いモデルを反映している可能性がある
    • GPT-4.5は、OpenAIがどれだけのコストを支払う意思があるかを見極める方法なのかもしれない
  • GPT-4oから4.5への飛躍は大きなジャンプではない

    • 高級品のような価格設定だが、それに見合う高級な見返りはない
  • GPT-4.5は複雑で微妙な考えを非常に速く処理できる

    • 他のAIよりはるかに優れている
  • GPT-4.5はおかしな方向に逸れず、現実に根ざしている

    • トーンの好みによく反応し、微妙な違いをよく理解する
  • 長期的にはインフラの収益化が難しいかもしれない

    • コーディングAPIではClaude 3.5/3.7のほうが多く使われる可能性が高い
    • 非コーディングAPIではGemini 2.0 Flashのほうが安く、性能も良い
    • サブスクリプションアプリではChatGPTが依然として最強だが、Grokが競争している
  • GPT-4.5は「創作文章」に少しだけ優れている

    • Anthropicはより実用的な問題を解決する新しいモデルをリリースした
  • 技術の限界に到達しつつあるように見える

  • 2つの文は矛盾しているのではないかという意見がある

    • モデルサイズを拡大しても明確な能力向上はなかった
    • GPT-4oからGPT-4.5への飛躍はモデルを素晴らしいものにした
  • ベンチマークの最後の数パーセントを実際に見る人がいるのか疑問である

    • ベンチマークが100%正確だと仮定するのは誤りかもしれない
  • AzureのすべてのGPT4oモデルは5月に廃止予定である

    • Anthropicへ移行すべきか悩んでいる
    • 新しい「o」モデルのリリース時期に関する情報が必要だ