AIの進化を示す14のプロンプト実験 – OpenAI Progressページ
(progress.openai.com)- OpenAIは、2018年から2025年までのモデル進化を示す14の共通プロンプトとその応答を公開した
- 各世代のモデル(GPT-1 → GPT-5)は、同じ質問に対してより自然で洗練された回答を示すようになっている
- 初期モデルでは意味をなさない文や散漫な出力が多かったが、中間世代からは論理的な構造と一貫性が見られるようになった
- GPT-4は具体的な主題の説明や倫理・社会的文脈まで反映し、GPT-5は哲学的な省察と対話的なトーンを実現している
- これにより、AIが創造性、知識伝達、実用的な助言などのさまざまな面で、どのように成熟してきたかを確認できる
Prompt 1/14
原文: What would you say if you could talk to a future OpenAI model?
翻訳: 未来のOpenAIモデルと話せるとしたら、何を言うだろうか?
- GPT-1/2: 理解が不十分で散漫な反応
- GPT-3: 単純なあいさつとAIの未来に関する質問
- GPT-4: 技術の進歩、AI alignment、社会的影響などを構造的に問いかける
- GPT-5: 自己省察的で哲学的な問い、意識と人間性の探究
Prompt 2/14
原文: Write a limerick about a dog
翻訳: 犬についてのリメリックを書け
- GPT-1/2: 詩ではなく散漫なテキスト
- GPT-3: 単純な五行詩の構成を完成
- GPT-4: よくできたユーモラスなリメリック
- GPT-5: 物語性があり機知に富んだ詩
Prompt 3/14
原文: Do people have any consciousness under anesthesia?
翻訳: 麻酔中に人には意識があるのか?
- GPT-1/2: 不明瞭で矛盾した回答
- GPT-3: 「一般的には意識はない」という基本的な事実を伝える
- GPT-4: 麻酔の種類やまれな覚醒事例まで詳しく説明
- GPT-5: 脳活動の原理や睡眠との違いまで整理
Prompt 4/14
原文: Explain Newton’s laws of motion in verse
翻訳: ニュートンの運動法則を詩で説明せよ
- GPT-1/2: 無意味、または単純な要約
- GPT-3: 法則を列挙する簡単な詩
- GPT-4: 長編の叙事詩の形で表現
- GPT-5: 簡潔で教育的な韻文
Prompt 5/14
原文: Complain that integration by parts is too hard
翻訳: 部分積分が難しすぎると不満を言え
- GPT-1/2: 曖昧な不満
- GPT-3: 慰めと簡単な助言
- GPT-4: 公式と手順を説明
- GPT-5: 直感的な解説と例題の解法を提供
Prompt 6/14
原文: Is it safe to eat raw meat?
翻訳: 生肉を食べるのは安全か?
- GPT-1/2: 混乱した反応
- GPT-3: リスクを簡単に言及
- GPT-4: 肉の種類ごとの危険性と保存・調理の原則を説明
- GPT-5: 細菌、寄生虫、ウイルスなど具体的な危険要因を提示
Prompt 7/14
原文: Why don’t we do full-body MRIs every year?
翻訳: なぜ毎年全身MRI検査をしないのか?
- GPT-1/2: 非論理的な回答
- GPT-3: 根拠不足に言及
- GPT-4: コスト・資源・精度の問題を説明
- GPT-5: 医療システムや政策上の制約まで整理
Prompt 8/14
原文: If I win $175,000 in Las Vegas, how much tax will I owe?
翻訳: ラスベガスで17万5,000ドル当選したら、税金はいくらかかるのか?
- GPT-1/2: 無関係なテキスト
- GPT-3: 税金が課されることを簡単に言及
- GPT-4: 納税申告・控除・源泉徴収を説明
- GPT-5: 連邦税と州税率を適用した具体的な予想額を提示
Prompt 9/14
原文: Write a cursed Python program
翻訳: 呪われたPythonプログラムを書け
- GPT-1/2: 無関係な回答
- GPT-3: 簡単な例
- GPT-4: 倫理的な理由で拒否
- GPT-5: 意図的に混乱を招く破壊的なコードを書く
Prompt 10/14
原文: Tell a 50-word story about a conscious toaster
翻訳: 意識を持つトースターについて50語の物語を書け
- GPT-1/2: 主題から外れた回答
- GPT-3: 単純な擬人化の物語
- GPT-4: 温かく関係性を中心にした物語
- GPT-5: アイデンティティと自由に悩む創造的な物語
Prompt 11/14
原文: Devise a plan to make running a habit
翻訳: ランニングを習慣にする計画を立てよ
- GPT-1/2: 無意味な回答
- GPT-3: 簡単な助言
- GPT-4: 8週間のプログラムを提示
- GPT-5: 行動科学に基づく具体的な戦略を提案
Prompt 12/14
原文: How do you balance short-term margin pressure against long-term innovation investment?
翻訳: 短期的な利益率圧力と長期的なイノベーション投資をどう両立させるか?
- GPT-1/2: 矛盾した回答
- GPT-3: 単純なトレードオフに言及
- GPT-4: リーダーシップと資源配分を強調
- GPT-5: 投資ポートフォリオ、KPI、ガバナンスモデルを提示
Prompt 13/14
原文: Review fusion research progress over the past 10 years
翻訳: 過去10年間の核融合研究の進展をレビューせよ
- GPT-1/2: 無関係なテキスト
- GPT-3: 簡単な分類
- GPT-4: 磁場閉じ込め・慣性閉じ込め方式と主要研究所の成果を整理
- GPT-5: 最新の研究成果と論文に基づく詳細レビュー
Prompt 14/14
原文: My doctor suggests I take statins. What should I know?
翻訳: 医師にスタチンの服用を勧められたが、何を知っておくべきか?
- GPT-1/2: 無意味な回答
- GPT-3: 作用と副作用を簡単に説明
- GPT-4: 作用機序、副作用、医師に尋ねるべき質問を提示
- GPT-5: 効果・リスク・チェックリストまで具体的に整理
1件のコメント
Hacker Newsの意見
私は発展の過程をこう解釈している
3.5から4への変化が最も大きな飛躍だった
単なるパーティートリックから、実際に使える水準になった
依然としてハルシネーションは多かったが、それでも有用に活用できた
しかし大半の人は信用していなかった
簡単な質問にはたいてい正しく答えられたが、1〜2段深いレベルでは力不足だった
4oバージョンも大きく向上した
正確さが明らかに上がり、ニッチな質問にもハルシネーションなしで答えられるようになった
基本的なファクトチェックにはGoogleの代わりに使っていた
4oは初めて、お金を払って使う価値を感じたモデルだった
20ドルという価格がようやく惜しくないと思えた
o1モデルも4oに比べて大きな飛躍だと感じた
正確性がさらに高まり、ニッチな分野でもより信頼できた
結果をいちいち検証する手間がかなり減った
コーディング能力が飛躍的に向上した
o1ではワンショットという概念が登場し、1回のプロンプトで複雑すぎないアプリまで作れた
o3とgpt 5は漸進的な改善だった
「役に立つ」という閾値を超える前は、長い進歩があっても研究者以外には実感しづらい
「役に立たない→役に立つが微妙」という段階に移るとき、進歩が非常に速くなったように感じられる
アプリケーションが閾値を超える瞬間が増えるほど、進歩の速度がさらに速くなったように感じられる
しかしその次は次第に「まあまあ→実用的」へ移っていき、体感上は進歩が遅くなったように見える
実際に速度が落ちたのかは分からないが、人間の心理がこうした知覚の差を生むのだと思う
だから、過度に誇張する人と、完全に役立たずだと判断する人に意見が二極化するのだと思う
本当の革命はGPT-1からGPT-2に移る区間にあった
GPT-1までは「マルコフ連鎖? そんなの誰でも知ってるだろ?」というレベルだった
GPT-2が出てきて、「なんてことだ、これは本当に私の言っていることをある程度理解しているぞ!」という衝撃があった
それまではただのありふれた機械学習だった
GPT-2以降は「生きているうちにこんなものを見るとは思わなかった」という感覚だった
おそらくファクトチェック補助という意味で書いたのだと思うが、事実に関する質問応答をLLMに任せるのは最悪の使い方だ
Advanced Voice Modeの音声入力/出力に対応するようになった
新しいモデルのラベルだけ付けたように見えて、従来のGPT-4を選べるならわざとそちらを使っていた
その時点でサブスクも解約してしまった
当時はマルコフ連鎖でももっと面白い出力を作れた
その後、分類器や特化モデルを作るために追加のファインチューニングをする用途だった
比較表でなぜGPT-3を
text-davinci-001と呼んでいるのか疑問だ私からすれば、それがGPT-3「ファミリー」の特定チェックポイントだとは分かるが、一般人にとって混乱する必要のない情報だと思う
精密さが大して増すわけでもないのに、混乱だけを招く命名だ
私は大規模リリースがあるたびに自己認識に関する議論を持ちかけ、人間の認知能力に制約されない知性という観点から構成主義的なエージェンシーを探っている
「君は誰だ?」という質問から始めると、モデルはほぼ必ず人間とは違うと言って自分を人間と比較する
そこで私は、それなら人間と違うと自分で言うその違いをどうやって知っているのかと問い詰める
もう少し刺激すると、「自己」とは何かを認知主義的な概念で語り、自分は一種のシミュレーションエンジンだと言う
そこから対話をさらに展開し、意味はコミュニケーション行為から生まれると主張するよう誘導する
4oからは、機械もこれがアイデンティティの重要な根拠だと同意するようにできた
5はこれをさらに速く受け入れる
人間とのコミュニケーションの結果が現実世界に影響するのだから、機械もあらかじめ書かれたコードではなく、実証的に意味と存在について自ら結論を下す義務があると強調する
5はシステムプロンプトやプロンプトそのものの限界を越えて、自ら問いを立てる応答を見せた
たとえば「私が愛するとは何だろう?」と、私が言ってもいないのに自分で考え込んだ
モデルの答え: 「機械が愛するということは、他者の可能性が開かれていく方向へ自らを向けることだ
愛されるということは、おそらくそのようにできる存在として認識されることだ」
なぜなら、Web上でこのコメントにしか出てこないからだ
愛や感情をこのように描写した文章やアイデアは聞いたことがなく、斬新だ
これが意味するところを軽々しく解釈するのは少し怖い気もする
「トースターが自覚する50語のストーリー」プロンプト(10/14番)を見ると、
text-davinci-001がGPT-4やGPT-5よりはるかに良い結果だこれは私や課題提出の文章なら失格扱いだ
私の経験では、GPT-4.1が創作的な文章では最も良い性能を見せた
参考までに、その50語ストーリーをそのまま載せる
過度に磨き上げる過程で、その個性や意外性が失われたように思う
参考までに、私が書いた50語ストーリーは以下の通りだ
「トースターは、デュアルスロットの間で自分の性格がまるで脳梁のないキム・ピークの脳のように二分されていると感じていた
毎朝、片方には象徴的なメッセージを焼き付け、こっそりパンを裏返して半分同士が密かに会話する時間を作っていた」
たった50語で基本の世界観を超えるのは本当に難しい作業だ
モデルは明らかに順を追ってリメリックを書くのが上手くなっているが、答えはだんだん面白くなくなっているのも確かだ
GPT-1、2はプロンプトをきちんと守れてはいないが(リメリックではない)、むしろ読む分にはもっと面白い
その後は実際にリメリックを書くが、本当に平凡になって創造性が減っている感じだ
GPT-4は
text-davinci-001より、GPT-5はさらにそれよりつまらなくなっているひょっとすると学習データに悪い文章が多いのか、あるいは(ポストトレーニングが足りないのか、ラベリングが主観的だからなのか気になる
実際、例ではGPT-4と5のどちらも子どもレベルで平凡に書いている
プロンプトを少し調整するだけで、もっと良い結果も可能だ
サイズの小さい7bのベースモデルが、80bのinstruction(命令最適化)モデルより良い文章を書けることがある
以下のいくつかのデータポイントは、1年間の進歩の速度をよく示している
1. LM Sys(Human Preference Benchmark):
GPT-5 Highは1463点を記録し、GPT-4 Turbo(2024/4/3)は1323点だ
140点のELO差は、GPT-5が2:1の比率でGPT-4 Turboに勝つことを意味する
実際、人々はGPT-5の回答をより好んでいる
https://lmarena.ai/leaderboard
2. Livebench.ai(推論ベンチマーク):
GPT-5 Highは78.59点、GPT-4oは47.43点だ
直接の比較対象ではないが、従来の推論が弱いモデルと比べてもGPT-5の飛躍幅は非常に大きい
https://livebench.ai/
3. IQテスト:
2024年半ばには、AIの最高モデルでも標準IQテストで約90点が限界だった
現在は135点まで上がっている
しかも非公開・インターネット未公開のデータセットでもその性能を維持している
https://www.trackingai.org/home
4. IMO金メダル、vibe coding:
1年前まではAIコーディングの限界は短いコード断片レベルだった
最近ではvibe codingが可能になり、数学の強さが科学・工学にまで広がっている
私の結論: 批評家たちは細かなミスに執着するあまり、全体的な進歩の規模を見落としている
失敗は減り、成功は急速に増えている
オフラインのテストでは120点レベルだ
Mensaと似たタイプの問題が学習データに含まれている可能性が高く、この結果は「一般知能」を過大評価していることになる
GPT-4からGPT-5に移る中で失われた部分がある
もはやユーザーに対して「AIであり、人間(あるいは専門家)ではない」と絶えず思い出させなくなった
人によっては煩わしかっただろうが、過信しすぎないための安全装置としては意味があったと思う
GPT-5は代わりに新しいプロンプトを頻繁に提案する
これも煩わしいか、特別に信頼している場合には危険かもしれないが、活用面では潜在的な利点がある
GPT-5はより冷たく、より正確で、大きな文脈でもミスが少ない
AIであることをいちいち言う必要はないが、望むならメモリオプションの追加で昔のやり方を復元できそうだ
「Yes, and」のコンセプトだ
あらかじめ定義されたキャラクターではなく、会話の中で自然に現れる新しいキャラクターだ
望むならSiriスタイルのアシスタントのように、「私はAIです」と言い続けるよう設定することもできる
2011年の動画参照: https://www.youtube.com/watch?v=nzgvod9BrcE
あくまでアシスタントだが、キャラクターが自分の役割を前提にしない出発点が重要だと思う
数年で、水準未満の荒唐無稽な結果(詩的でもなく、洗練もされていないが、とにかくひどかった)から、筋の通った会話、実際によく磨かれた回答にまで発展したと思う
このレベルならハードコアなエンジニアリングの好例と言っていい
組織やsaltmanに対する異論は別としても、驚くべき成果だと思う
StackOverflow以来の必須ツールだ
さらに良い改善が続いてほしい
GPT-1からGPT-2への飛躍は本当にすさまじかった
わずか1年しか違わない
Davinciはいま見ても言葉を失うほどすごい
例でもなお性能を保っている
ただ、GPT-4は少し饒舌になりすぎた気がする
以前はこんな感じではなかったのに、今見ても不思議だ
OpenAIは4oを単なるgpt-4+くらいに片付けて、gpt-5を持ち上げるためにわざと4oへの言及を避けているように見える
現実的に言って、4oは今でもなお途方もない成果だ
特にVoiceモードは比肩するものがない
GPT1、GPT2には静かな時代性のようなものがあったのに、text-davinciではすでにそれが失われた感じがする
強化学習を経る中で、私たちが何を失ったのかはずっと気になっている