3 ポイント 投稿者 GN⁺ 2024-09-13 | 1件のコメント | WhatsAppで共有
  • 強化学習によって複雑な推論を実行できるよう訓練された新しい大規模言語モデル OpenAI o1 を発表
  • o1 は、ユーザーに応答する前に長い内部の思考連鎖(chain of thought)を生成できる
  • o1 は、競技プログラミング問題(Codeforces)で上位89パーセンタイル、米国数学オリンピック予選(AIME)では米国上位500人の生徒の1人に相当し、物理学・生物学・化学の問題を扱うベンチマーク(GPQA)では人間の博士レベルの精度を上回る
  • 現在のモデルのように簡単に使えるようにする作業はまだ進行中だが、このモデルの初期版である OpenAI o1-preview を ChatGPT と信頼できる API ユーザー向けに即時利用可能として公開

評価

  • GPT-4o と比べて、o1 はほとんどの推論中心タスクで大幅に優れた性能を示す
    • 2024 AIME 試験で、GPT-4o は問題の平均12%(1.8/15)しか解けなかった一方、o1 は単一サンプルで平均74%(11.1/15)、64サンプルの合意で83%(12.5/15)、1000サンプルを学習済み採点関数で再ランキングして93%(13.9/15)を達成
    • GPQA Diamond では、o1 は化学・物理学・生物学の専門知識をテストする人間専門家の性能を上回り、このベンチマークで初めてそれを達成したモデルとなった
    • o1 は視覚認識機能を有効にすると MMMU で 78.2% を記録し、人間専門家と競争できる最初のモデルとなった
    • MMLU の57の下位カテゴリのうち54カテゴリで GPT-4o より優れた性能を示した

思考の連鎖(chain of thought)

  • 人が難しい質問に答える前に長く考えられるように、o1 は問題を解こうとするときに思考の連鎖を使う
  • 強化学習を通じて、o1 は思考の連鎖を磨き、それを使う戦略を改善する方法を学ぶ
    • 間違いを認識して修正する方法を学ぶ
    • 難しい段階をより単純な段階に分解する方法を学ぶ
    • 現在のアプローチが機能しないときに別のアプローチを試す方法を学ぶ

コーディング

  • プログラミング能力をさらに向上させるよう訓練し、2024年国際情報オリンピック(IOI)で213点を記録し、49パーセンタイルにランクしたモデルを訓練
    • このモデルは人間の参加者と同じ条件で 2024 IOI に参加
    • 6つの難度の高いアルゴリズム問題を解くのに10時間が与えられ、問題ごとに50回の提出が許可された
  • 10,000回の提出が許可されると、モデル性能は大きく向上
    • テスト時選択戦略なしでも 362.14 点を達成し、金メダルの閾値を超えた
  • Codeforces が開催する競技プログラミング大会をシミュレーションして、このモデルのコーディング実力を実証
    • GPT-4o は ELO レーティング 808 を達成し、人間競技者の11パーセンタイルに相当
    • このモデルは GPT-4o と o1 を大きく上回り、ELO レーティング 1807 を達成して競技者の93%より優れた性能を示した

安全性

  • 思考の連鎖による推論は、アラインメントと安全性のための新たな機会を提供
    • モデルの動作に関するポリシーを推論モデルの思考の連鎖に統合することが、人間の価値観や原則を堅牢に教える効果的な方法であることを発見
    • モデルに安全ルールと状況に応じた推論方法を教えることで、推論能力がモデルの堅牢性に直接役立つという証拠を発見
  • モデルが合法的な形で考えていることを観察でき、モデルが安全ルールについて推論することが分布外シナリオに対してより強力であるため、思考の連鎖の使用は安全性とアラインメントに大きな進展をもたらすと考えている
  • 配備前に安全テストとレッドチーム編成を実施し、改善点を強調
    • 思考の連鎖による推論が、すべての評価で能力向上に寄与したことが示された

結論

  • o1 は AI 推論における最先端技術を大きく前進させた
  • 今後も反復しながら、このモデルの改良版を公開していく計画
  • o1 とその後継モデルが、科学・コーディング・数学および関連分野で AI の多くの新しいユースケースを切り開くことを期待
  • ユーザーと API 開発者が、o1 が日常業務をどのように改善できるかを見出すことを期待

GN⁺の意見

  • OpenAI o1 は複雑な問題解決と推論能力に優れたモデルで、人間レベルを超える性能を示している。特に数学・科学・プログラミング分野で専門家レベルの実力を持っており、関連分野の研究や応用に大きく役立ちそうだ
  • 思考の連鎖(Chain of Thought)方式を使うことで、モデルの思考過程を観察して理解できるようにした点が印象的だ。これはモデルの動作を理解し制御するうえで大きな助けになるだろう。ただし、生成された思考過程をユーザーにそのまま公開しないとした点には議論の余地がある
  • モデルの安全性強化のためにポリシールールを思考過程に統合した点も注目に値する。ただし、まだ完全ではないように見えるため、継続的なモニタリングと改善が必要だろう
  • o1 は非常に強力なモデルだが、完全無欠ではない。バイアスや倫理的問題など、AI モデル全般にわたる限界は依然として存在する。技術的進歩とともに、こうした限界を克服するための継続的な努力が必要になるだろう

1件のコメント

 
GN⁺ 2024-09-13
Hacker Newsの意見
  • 1つ目の意見

    • 文書から得られた実用的な情報の要約
      • アクセスするにはTier 5である必要があり、合計$1,000を支払い、最初の成功した支払いから30日以上経過している必要がある
      • 価格は入力トークン100万個あたり$15、出力トークン100万個あたり$60
      • コンテキストウィンドウは128kトークン、最大出力は32,768トークン
      • 最大出力トークンが2倍のmini版もあり、価格は入力トークン100万個あたり$3、出力トークン100万個あたり$12
      • ブログ記事で言及された専門コーディング版は利用不可
      • 隠れたchain of thought reasoningが課金対象の出力トークンとして請求されるのかは不明
  • 2つ目の意見

    • 最初の2つの精度グラフに具体的なラベルがなく懐疑的
      • 80%精度のテスト結果にどれだけ時間がかかったのかわからない
      • 記事序盤のグラフとコーディング節の10時間の問題解決がつながっているのか不明瞭
      • データは多いが、最初の2つのグラフのデータが不透明で信頼しにくい
  • 3つ目の意見

    • 「安全性」の例がばかげている
      • OpenAIはLLMがstrychnine合成に関する詳細な指示を提供するのは容認できないとしながら、以前に生成された「安全でない」指示を掲載している
      • LLMが知識を共有することに対する安全性への過度な執着
  • 4つ目の意見

    • モデル性能はchain of thoughtに左右されるが、競争優位などの理由でユーザーには提供されない
      • GPT4のリリース以降、GPT4の出力を基に非OpenAIモデルをファインチューニングすることが一般的になった
      • OpenAIがchain of thoughtの応答を提供しない理由は、結果の再現を難しくするため
  • 5つ目の意見

    • GPT-4モデルを使ってキッチンファンのバイナリBluetoothプロトコルのリバースエンジニアリングを手伝ってもらった
      • o1-previewとo1-miniモデルがパターンを理解してデコードした
      • GPT4oモデルは以前と同じ結果を返した
      • 驚くべき進歩
  • 6つ目の意見

    • chain-of-thought promptingと、強化学習によるchain of thought戦略の学習の違いを理解していないコメントが多い
      • 強化学習によってo1がchain of thoughtを磨き、戦略を改善している
  • 7つ目の意見

    • Cipherの例のChain of Thoughtを読むのが興味深い
      • 論理をゆっくり書き出し、その上で推論することが論理的思考を向上させる
  • 8つ目の意見

    • オランダのテレビ番組の字幕問題を理解するのにo1がうまく機能した
      • 字幕のウムラウト付きuが1/4と表示される理由を尋ねたところ、エンコーディングの問題を正確に説明した
  • 9つ目の意見

    • ROT暗号文の解読では期待外れの結果だった
      • 多くのステップが誤っているか、指示に従っていない
      • chain of thoughtエンジンで有用性を得られるパターンを見つけにくい
  • 10つ目の意見

    • 技術的成果は大きいが、LLMは依然としてハルシネーションに弱く、ツールの有用性が心配
      • 専門家でないユーザーが誤った回答に依存する危険がある
      • たとえば、データベースのjoin順序最適化アルゴリズムを評価する際に誤情報を提供する