1 ポイント 投稿者 GN⁺ 2024-06-19 | 1件のコメント | WhatsAppで共有

ARC-AGIでGPT-4により50%の正確度を達成する

ARC-AGIとは何か?

  • ARC-AGIは、AIの一般的な推論能力を評価するために作られたデータセット。
  • 色付きセルで構成されたグリッド形式の入力・出力例を見て、変換規則を推論する問題で構成されている。
  • 人間の平均正確度は訓練セットで85%だが、テストセットははるかに難しい。

私の方法

  • GPT-4を使って、問題ごとに約8,000個のPythonプログラムを生成し、正しい出力を出すプログラムを選択した。
  • いくつかの追加アプローチと調整によって、性能を大きく向上させた。
    • Few-shot prompts: 段階的な推論を行うプロンプトを使用。
    • コード修正: 例の出力結果を見て、GPT-4に一部の実装を修正させる。
    • 特徴量エンジニアリング: より良いグリッド表現をモデルに与える。
    • 特化したプロンプト: グリッドサイズが変わる場合と変わらない場合で異なるプロンプトを使う。

より多くのサンプリングの効果

  • サンプル数が増えるほど性能が向上する。
  • たとえば、1024個のサンプルで25%の正確度を達成したが、2048個のサンプルでは34%の正確度を達成した。

より良いプロンプトとコード修正の効果

  • プロンプトの改善とコード修正の段階が、正確度向上に重要。
  • 最終版では50%の正確度を達成した。

限界と予測

  • GPT-4の視覚認識能力とコーディング能力には限界がある。
  • より多くのサンプリングと、より良いプロンプトが必要。
  • 次世代のLLMがARC-AGIの性能を大きく向上させる可能性が高い。

GN⁺の意見

  • 視覚認識能力: GPT-4の視覚認識能力には限界があり、より優れた視覚認識モデルが必要。
  • コーディング能力: GPT-4はコーディングで単純なミスを頻繁に犯す。これを改善するには、より良いデバッグツールが必要。
  • サンプリングコスト: 大量のサンプリングが必要なため、コストが高くなる可能性がある。効率的なサンプリング方法が必要。
  • 将来性: 次世代のLLMがARC-AGIの性能を大きく向上させる可能性が高い。これにより、AIの一般的な推論能力を評価するうえで重要な基準となりうる。
  • 実際の応用: ARC-AGIのような問題解決能力が、実際の応用分野でどのように活用できるかについての研究が必要。

1件のコメント

 
GN⁺ 2024-06-19
Hacker News の意見
  • ARC Prize 共同創設者: Ryanの研究は興味深く、新しい「LLM推論」研究であり、GPT-4oを使って8,000個のPythonプログラムを生成し、正しいプログラムを選んで追加のテスト入力に適用する方式である。公開評価セットでの結果であり、検証済みの結果ではないが期待できる。Ryanの努力に祝福と感謝を伝える。

  • 記事への批判: 記事では複数の手作業のトリックを使って結果を得ているにもかかわらず、「現在のLLMはARC-AGIでかなりうまくやれる」という結論へ飛躍している。Francois Cholletへの攻撃はコミュニティに害を与える。

  • GPT-4についての意見: GPT-4は出来の悪いAGIであり、GPT-1もAGIだった。人間の知能も段階的に発達するように、GPT-4もテキスト思考に特化した小さな脳と見なせる。ARCが一般知能の絶対的基準だと主張するのは、知能の全体像を見失っている。

  • GPT-4の初期の試み: GPT-4はパズルで「そこそこ」の成果を出したが、論理的な部分で失敗する場合があった。視覚空間的な要素が重要であり、マルチモーダルモデルが必要かもしれない。Pythonの解法をランダムに生成するのは「非人間的」なアプローチである。

  • LLM操作の意味: 多くの人がLLMを操作してAGIテストを通過させることは、AGIテストの目的を空洞化させる。しかし、どのような操作が有効かを突き止めるのは有益である。ほとんどの問題はパターンマッチングに帰着する。

  • 主なポイント:

    • ほとんどの作業は探索によって行われる。
    • サンプル数が多いほど性能が向上する。
    • LLMはランダムなプログラムよりも優れたプログラムを生成する。
    • GPT-4がARCパズルを解けるかどうかには確信がない。
  • ARC-AGIの欠陥: ARC-AGIには欠陥があるように見える。AGIで説明できることが、訓練セットに含まれていたことで説明できてしまう。

  • システム2とAGI: 多数のプログラムを生成して評価することが、AGIにおけるシステム2の役割を果たしうる。これは人間が知的に思考する方法に似ている。

  • 物理的理解の重要性: この挑戦は物理的理解、空間認識、物体の境界に依存している。物体を識別し、変換や関係をマッピングすることが重要である。プログラム探索とLLMを組み合わせることで解決できる。

  • GPT-4の計画能力: GPT-4は記事で説明されているものと似た計画を生成できる。特徴抽出、プログラム合成、反復的改善を含む。コーディングと視覚入力に弱点がある。