- AI技術の進歩により、より複雑で重要な問題を解決できるようになり、その実現には相当な計算リソースが必要
- ChatGPT Pro は 月額 $200 のプラン で、OpenAI の最新モデルとツールを拡張的に利用可能
- o1: 最も賢いモデル
- o1-mini、GPT-4o、Advanced Voice も含む
- o1 pro mode: より多くの計算リソースを活用して、より深く考え、複雑な問題に対してさらに洗練された回答を提供
- 今後、さらに強力な生産性機能を追加予定
- 研究者、エンジニア、研究中心の作業を行う個人向けに設計されており、生産性を高め、AI発展の最前線に立てるよう支援
- ChatGPT Pro の o1 pro mode は、高い信頼性の応答を提供する高度なモデル
- 特にデータサイエンス、プログラミング、法務分析の分野で、正確かつ包括的な応答を提供
- o1 および o1-preview と比較して、数学、科学、コーディング分野の難しい機械学習ベンチマークでより優れた性能を示す
主な性能比較(pass@1 正確度基準)
- 数学コンテスト (AIME 2024)
- o1-preview: 50
- o1: 78
- o1 pro mode: 86
- コードコンテスト (Codeforces)
- o1-preview: 62
- o1: 89
- o1 pro mode: 90
- 博士課程レベルの科学問題 (GPQA Diamond)
- o1-preview: 74
- o1: 76
- o1 pro mode: 79
信頼性向上: "4/4 reliability" 評価
- より厳格な評価基準を導入: 4回の試行のうち4回すべて正解した場合のみ解決と見なす
主な性能比較(4/4 信頼性基準)
- 数学コンテスト (AIME 2024)
- o1-preview: 37
- o1: 67
- o1 pro mode: 80
- コードコンテスト (Codeforces)
- o1-preview: 26
- o1: 64
- o1 pro mode: 75
- 博士課程レベルの科学問題 (GPQA Diamond)
- o1-preview: 58
- o1: 67
- o1 pro mode: 74
7件のコメント
Proを使ってみましたが、コンテキストウィンドウが短いのが致命的です。長い内容は書いてくれるものの、ある程度進むと、もともと書いていた内容やフォーマットがだんだん崩れ始めます。
OpenAIはますますopenから遠ざかっていきますね。
これが現実なんでしょう。
コストを賄えないのでPlusの購読料が値上げされそうだと思っていましたが、そうではなく、さらに高価格帯のラインアップを新設して攻めるのですね。普段本当に便利に使っていますが、私はProバージョンまでは必要なさそうです。笑
私は以前からPlusを使っているのですが、少し前から同じ種類のエンジンで同じ種類のプロンプトを実行しても、挙動が変わったと感じています。以前ほどこなせなくなっている印象を受けます。
既存のPlusで使えるモデルを弱体化させて、切り分けて売っているのではないかという気がします。
コストが高くなるほど性能に対する信頼性があるものですが、AIサービスにはそういうものがありません。インターネット回線がある日突然こっそり制限されるように、AIもそうなっていく可能性が高そうです.
私もPlusを使っていますが、回答の基調というべきでしょうか。名前は同じ
o1でも、全体的な印象がpreviewのときとはまったく変わりました。誰かがトークン出力を抑制しているのではないかと思ってしまうほどです。同感です。私も同じ日時のバージョンを使っていても、特に言及もなく性能が良くなったり悪くなったりするのを感じています。少し別の話ですが、特定のサービスが情報を収集しないという点も確認する方法がないので、結局はただ信じるしかない領域なのではないかと思います。
Hacker Newsの意見
OpenAIは、オープンソース代替の進化速度と収益化の必要性の間で競争している。成功するかどうかは、大企業がOpenAIの統合的で安全なAIソリューションを選ぶかにかかっている。これはIBMのエンタープライズコンピューティング戦略に似ている。
Pro版のコンテキストウィンドウが短い点に不満がある。Plus会員として、より長いコンテキストウィンドウを期待していたが、これについての議論がまったくない。競合他社には、コンテキストウィンドウを差別化要因として考えることを強く勧める。
Proサブスクリプションを購入した第一印象は、新しいo1-Proモデルが非常に優れた書き手だということだ。長いプロンプトと複雑なデータ分析をうまく処理する。
より多くの計算資源のためのプランは、価格設定戦術であるデコイ効果で説明できる。高価格の選択肢を導入することで、他のプランがより妥当に見えるようにしている。
Claude Teamsに毎月166ユーロを支払っている。これは、プロジェクト機能と組み合わさることで、多くのファイルをアップロードして特定のコンテキストで質問できる機能があるためだ。この機能は、研究者を指先に抱えているような強力さがある。
Anthropicでは、はるかに安いコストでより良い性能を得られている。新しいGPTがClaudeより10倍優れているという主張には懐疑的だ。
OpenAIが投資家が疲れ果てる前に「汎用」AIを達成できるのか疑問だ。ChatGPTの成功を通じて、彼らがそれを達成する道筋があることを示唆していた可能性がある。
製品の「無制限」利用に対する月額サブスクリプション価格設定の最大の難しさは、極端な使い方をする1%のパワーユーザーだ。ChatGPT Proの価格は、パワーユーザーや企業を対象にしている。
複雑なGoogle Sheetsの数式を書くのに4.5時間を費やした。新しいChatGPT Proモードがより速いなら、時間節約の面で大きな利点がある。
interview millでo1モデルを使って面接を行う事例がある。この種のユースケースでは、月額200ドルの料金が安く感じられるかもしれない。