4 ポイント 投稿者 xguru 2025-02-28 | 4件のコメント | WhatsAppで共有
  • GPT-4.5はOpenAIの最新モデルで、事前学習(pre-training)と事後学習(post-training)の両方でスケーラビリティを改善したバージョン
  • 教師なし学習(unsupervised learning)の規模を拡大し、パターン認識と創造的な洞察を強化
  • より自然な対話が可能で、ユーザーの意図をより適切に理解し、感情知能(EQ)も向上
  • 文章作成、プログラミング、問題解決など、さまざまな作業で有用に活用可能
  • ハルシネーション(hallucination)の発生率が低下すると期待される
  • 研究プレビューとして提供され、モデルの強みと限界を探り、多様なユースケースを収集することが目的

教師なし学習の拡張

  • AIの進歩のために、教師なし学習推論(reasoning) の2つの軸を拡張
    • 推論の強化: 複雑なSTEM問題を解くために、モデルが体系的に思考できるよう訓練
      • OpenAI o1、OpenAI o3-miniのようなモデルがこのアプローチを発展させている
    • 教師なし学習の拡張: より多くのデータを通じて、モデルの直感と世界知識の正確性を向上
  • GPT-4.5はMicrosoft Azure AIスーパーコンピューターで訓練され、より広い知識と深い理解力を備える
    • これによりハルシネーションの発生が減り、さまざまなトピックでより信頼できる結果を提供

GPTパラダイムの拡張

  • GPT-4.5は以前のモデルより優れた知識を備えている
    • 言語の起源のような歴史的な問いに対して、より深い洞察を提供
    • "最初の言語は何か?" のような質問について:
      • 単一の最初の言語は存在しなかった可能性が高い
      • アフリカで10万年以上前に言語が出現したと推定される
      • 原始言語(proto-languages)はジェスチャー、音、信号などから発展した可能性が高い
      • 言語には記録がないため、正確な起源は分からない
  • このようにGPT-4.5は、言語学および歴史分野でも踏み込んだ回答を提供できる

より深い世界知識

  • SimpleQA評価結果で、GPT-4.5は他のモデルより高い精度を記録
    • 精度(Accuracy)比較:
      • GPT-4.5: 62.5%
      • GPT-4o: 38.2%
      • OpenAI o1: 47%
      • OpenAI o3-mini: 15%
    • ハルシネーション率(Hallucination Rate)比較(低いほど良い):
      • GPT-4.5: 37.1%
      • GPT-4o: 61.8%
      • OpenAI o1: 44%
      • OpenAI o3-mini: 80.3%
  • GPT-4.5は、事実確認が必要な質問でより高い精度を維持し、ハルシネーション率を低減

人間との協業のための訓練

  • GPT-4.5は人間の要求と意図をより適切に理解できるよう訓練されている
    • ユーザーの意図をより精緻に解釈し、自然な対話が可能
    • 既存モデルより感情知能(EQ)が向上し、微妙なニュアンスをよりよく理解
    • 文章作成やデザイン作業で創造的直感と美的感覚に優れる
  • 比較評価(Win-rate vs GPT-4o)
    • 創造的作業: 56.8%
    • 専門的な質問: 63.2%
    • 日常的な質問: 57.0%
  • GPT-4.5は人間との協業を自然にこなし、対話の中でユーザーの意図をより正確に把握する

今後の展望: より強力な推論能力

  • GPT-4.5は応答前に論理的に思考するモデルではない
  • OpenAI o1やOpenAI o3-miniのような推論中心モデルとは異なるアプローチ
  • 将来のモデルでは、事前学習(pre-training)と推論(reasoning)の結合が鍵になると見込まれる

安全性の強化

  • GPT-4.5は、既存の**SFT(教師あり微調整)とRLHF(人間フィードバックによる強化学習)**を含む新しい監督手法で訓練
  • モデル展開前に安全性テストを実施し、潜在的リスクを評価
  • 評価結果をまとめたsystem cardを公開し、研究とフィードバックを促進

ChatGPTでGPT-4.5を使う方法

  • 本日からChatGPT ProユーザーはWeb、モバイル、デスクトップでGPT-4.5を選択可能
  • 来週PlusおよびTeamユーザーに提供予定
  • その翌週EnterpriseおよびEduユーザーに提供予定
  • 主な機能:
    • 最新情報の検索が可能
    • ファイルおよび画像のアップロードに対応
    • Canvasを活用した文章作成およびコーディング作業が可能
    • ただし、音声モード、動画、画面共有機能には非対応

APIでGPT-4.5を使う方法

  • Chat Completions API、Assistants API、Batch APIを通じて開発者に提供
  • 主な機能:
    • 関数呼び出し(Function Calling)
    • 構造化出力(Structured Outputs)
    • ストリーミング(Streaming)
    • システムメッセージ(System Messages)
    • 画像入力によるビジョン機能に対応
  • 開発者の活用例:
    • 感情知能と創造性が重要なアプリケーション(例: 文章作成アシスタント、学習コーチング、ブレインストーミング)
    • 複雑なコード作業(例: 多段階のコーディングワークフロー、自動化)
  • API提供に関する考慮事項:
    • GPT-4.5は計算量が多くコストも高いモデルであるため、GPT-4oを置き換えるものではない
    • 長期的にAPIで継続提供するかを検討中であり、ユーザーフィードバックが重要

結論

  • GPT-4.5は教師なし学習の限界を拡張するモデルであり、創造的で新しい機能を探求できる
  • AI技術の新たな可能性を探り、ユーザーによる革新的な活用事例に期待する。

4件のコメント

 
GN⁺ 2025-02-28

Hacker Newsのコメント

  • GPT 4.5の価格は非常に高い

    • 入力: 100万トークンあたり $75.00
    • キャッシュ済み入力: 100万トークンあたり $37.50
    • 出力: 100万トークンあたり $150.00
    • GPT 4oと比べると価格差が大きい
    • GPT-4.5は非常に大規模で計算集約的なモデルであり、長期的にAPIで提供し続けるか評価中
    • ユーザーフィードバックが重要
  • GPT-4.5を使った感想

    • 非常に遅く、リアルタイムのやり取りには向かない
    • 文章スタイルが改善され、よりカジュアルで親しみやすい
    • 書籍の草稿比較ではGPT4oとGPT4.5の差が目立つ
  • 感情知能(EQ)に注力

    • 「親切なAIの友だち」へと変化する傾向が見られる
    • AnthropicやGrokもこの方向に進んでいる
    • APIレスポンスにこうした振る舞いが入り込まないでほしい
  • ブログ投稿とライブストリームのデモに失望

    • 新しいモデルはそれほど印象的ではない
    • OpenAIが競合他社より先行し続けるのは難しそうに見える
    • 価格が非常に高くて驚く
  • OpenAIとAnthropicの異なるアプローチ

    • Anthropicは単一のパラダイム(推論)がすべてのユースケースに適する可能性があると考えている
    • OpenAIはさまざまな機能を持つモデルのアンサンブルが必要だと考えている
    • GPT 4.5は規模が大きく、より多くの事実データを保存できる
  • Kagi LLMベンチマークでのGPT-4.5の性能

    • 高価格と速度の遅さにもかかわらず性能は優れている
    • 一部のタスクでは依然として不十分
  • API経由でのGPT-4.5の使い方

    • uvxツールを使って実行できる
    • APIキーの設定が必要
  • コーディング性能の比較

    • ChatGPT 4.5はChatGPT 4oよりコーディングでわずかに優れている
    • Anthropic Claude 3.7のほうがより高い性能を示す
  • OpenAIの試みへの理解

    • GPT 4.5は事前学習のスケーリング則を探るための重要な試みだった
    • 科学への貢献という贈り物である
 
xguru 2025-02-28

GPT-4.5の価格(100万トークンあたり)

  • 入力 $75
  • キャッシュ済み入力 $37.50
  • 出力 $150
    4oと価格を比べると、入力は30倍、出力は15倍高いですね。

ただ、性能がそこまで良くなっているわけではないため、不満も多いようです。

CursorでGPT-4.5を使ってみると、ほかのモデルが失敗するケースでも効率的に動作するとのことです。
もちろん高すぎるので、従量課金で支払う必要があります。「複雑なコーディングをさせたら破産しそう」という反応も。
https://x.com/cursor_ai/status/1895210110714290302

 
bearmett 2025-02-28

Claude Code の価格を見たときも、似たようなことを考えた気がします。月給取りなら、時給を超えたら破産じゃないでしょうか 😵‍💫

 
botplaysdice 2025-02-28

それはむしろ幸いかもしれませんね。モデルの価格次第で、私たちの単価も…;;;