3 ポイント 投稿者 GN⁺ 2025-04-15 | 1件のコメント | WhatsAppで共有
  • GPT-4.1、GPT-4.1 mini、GPT-4.1 nanoの3つのモデルを公開
  • GPT-4oと比べて全体的に性能が向上しており、特に コーディング、指示追従、長文コンテキスト理解 で顕著な改善
  • 3モデルすべてが最大 100万トークンのコンテキストウィンドウ をサポートし、大規模コードベースや複雑な文書分析に適している
  • レイテンシ削減とコスト削減 とともに優れた性能を提供
  • 主な性能向上
    • コーディング能力: SWE-bench Verifiedで54.6%となり、GPT-4o比で+21.4ポイント向上
    • 指示追従: MultiChallengeスコア38.3%で、GPT-4oより+10.5ポイント向上
    • マルチモーダル長文コンテキスト理解: Video-MME(long, no subtitles)で72.0%、GPT-4o比で+6.7ポイント
  • GPT-4.1モデル群の特徴
    • GPT-4.1 mini: GPT-4oを上回る知能評価結果、レイテンシ半減、コスト83%削減
    • GPT-4.1 nano: 最低コストかつ最小レイテンシで、高性能を維持
  • GPT-4.5 Previewは2025年7月14日に終了予定、GPT-4.1シリーズへの移行を推奨
  • ビジョン(画像理解およびマルチモーダル)
    • GPT-4.1 miniは 画像ベースのベンチマーク でGPT-4oを上回る
    • MMMU、MathVista、CharXiv などで高い精度
    • Video-MME(30〜60分の字幕なし動画に対する質問): 72.0%の正確度
  • 価格ポリシー
    • 全モデルが公開済みで利用可能
    • GPT-4.1は GPT-4oより平均26%安価
    • GPT-4.1 nanoは最低コストのモデル
    • キャッシュ入力時は75%割引、長文コンテキストにも追加費用なし
  • モデル別価格
    • GPT-4.1: 入力100万トークンあたり$2.00、出力$8.00、平均コスト約$1.84
    • GPT-4.1 mini: 入力$0.40、出力$1.60、平均$0.42
    • GPT-4.1 nano: 入力$0.10、出力$0.40、平均$0.12
    • プロンプトキャッシュ割引を従来の50%から 最大75%まで拡大
    • 長文コンテキストのリクエストに追加料金なし、トークン使用量のみ基準

1件のコメント

 
GN⁺ 2025-04-15
Hacker Newsの意見
  • ChatGPTユーザーは、さまざまなモデルを選ばなければならない状況に混乱を感じている

    • 4oはWeb検索、Canvasの使用、Pythonのサーバー側評価、画像生成が可能だが、思考の連鎖はない
    • o3-miniはWeb検索、CoT、Canvasが可能だが、画像生成は不可
    • o1はCoTは可能だが、CanvasやWeb検索、画像生成は不可
    • Deep Researchは強力だが、月10回しか使えないため、ほとんど使っていない
    • 4.5は創作的な文章作成に優れているが、リクエスト制限があり、他の機能に対応しているかは不明
    • 4o "with scheduled tasks" が、なぜツールではなくモデルなのか疑問
  • SWE-bench Verified、Aider Polyglot、コスト、秒間出力トークン数、知識カットオフの月/年を比較

    • Claude、Gemini、GPT-4.1、DeepSeek R1、Grok 3 Betaの性能とコストを比較
    • 異なるテスト環境や思考レベルが含まれる可能性があり、直接比較は難しい
  • OAIがGPT 4.1向けのプロンプトガイドを公開

    • モデルに持続性を与えることが性能向上に役立つ
    • JSONの代わりにXMLまたは arxiv 2406.13121(GDM形式)の使用を推奨
    • プロンプトは上部と下部に配置すべき
  • OpenAIの発表によると、GPT-4.1はClaude Sonnet 3.7とのコードレビュー生成対決で、55%のケースでより良い提案を提供した

    • GPT-4.1は精度と網羅性に優れている
  • 最近のTed Talkで、Samはモデルは移り変わるが、最高のプラットフォームになりたいと発言

    • これは大きな変化に感じられる
  • GPT-4.1を複雑なコードベースで使った経験の共有

    • OpenAI初のエージェントモデルのように感じられる
    • 依然として改善の余地があり、ツール呼び出しは頻繁に失敗する
    • Claudeに比べると複雑さを扱う能力は劣る
    • リクエストがあまり複雑でなければ、要求に忠実
  • 長い最大トークンを持つモデルの性能に関するベンチマークの必要性を提起

    • Geminiモデルでは200k以降に品質低下を経験
    • 最大トークン上限を増やすことが本当に有用なのか疑問
  • 大手AI研究所は複数の市場戦争を同時に戦っている

    • コンシューマー成長、エンタープライズワークロード、最先端研究、推論の公約、DeepSeekの脅威への対応など、さまざまな戦線で競争中
  • GPT-4.1が164件のコメントが付いたHacker Newsスレッドを要約した結果

    • 指示によく従うと評価されている
    • 総トークンコストと他モデルとの比較を提示