1 ポイント 投稿者 GN⁺ 2024-11-23 | 1件のコメント | WhatsAppで共有
  • 最近、大規模言語モデル(LLM)はチェスが苦手だという謎があった。しかし、gpt-3.5-turbo-instruct は例外的にアマチュア水準でチェスをうまく指す。このモデルは他の新しいモデルより古く、サイズも小さい。

  • 複数の理論が提示されている:

    • 理論1: 十分に大きいベースモデルはチェスが得意だが、チャットモデルへの指示チューニングではそうならない。
    • 理論2: gpt-3.5-turbo-instruct はより多くのチェスデータを学習した可能性がある。
    • 理論3: 特定の LLM アーキテクチャに何か特別なものがある。
    • 理論4: データ型同士の「競合」があり、LLM がチェスをうまく指すにはチェス対局データが多く必要である。
    • 理論5: OpenAI が不正をしているという主張。
    • 理論6: LLM は実際にはチェスをできないという主張。
  • OpenAI が不正をしているという主張は信じがたい。gpt-3.5-turbo-instruct はチェスエンジンとは異なる方法で手を選び、専門家の基準では優れているわけでもない。

  • LLM はチェスを指すことができる。gpt-3.5-turbo-instruct は違法な手をほとんど提案せず、新しい盤面状態でもうまくプレイする。

  • gpt-3.5-turbo-instruct は「補完」モデルで、テキストを受け取って新しいテキストを生成する。gpt-4o-mini と gpt-4o は「チャット」モデルで、システムプロンプトとユーザープロンプトを使用する。

  • さまざまな実験を通じて、プロンプト調整、例の追加、ファインチューニングなどがモデル性能に影響しうることを確認した。

  • 例の追加は性能に大きな影響を与え、ファインチューニングも役立つ。しかし、合法手を提供することは性能を低下させる。

  • gpt-4o を「補完」モードのように動作させるよう誘導すると性能が向上する。これは gpt-4-base がチェスに強い可能性を示唆する。

  • 結論として、OpenAI のベースモデルはより多くのチェスデータを学習している可能性が高く、チャットモデルは補完モデルより性能が低い可能性がある。

  • 最適なプロンプトと例、ファインチューニングを見つけることは難しく、コストも高い作業である。

1件のコメント

 
GN⁺ 2024-11-23
Hacker Newsの意見
  • 投稿者は違法な手の頻度に関するデータを示していないため、有意義な結論を導くのは難しい

    • たとえば、LLMが専門医レベルだと主張しつつ、誤った医療助言を除外したデータだけを提示するのに似ている
  • gpt-3.5-turbo-instructは終盤でも違法な手をほとんど提案しない

    • このモデルはチェスを「理解」し、「論理的思考」ができると主張されている
    • 「上級アマチュア」のチェスプレイヤーが違法な手を打つことはまれである点から疑問が呈されている
  • チェスを理解しているかを試す方法として、1000のランダムな合法局面から次の一手を指させる

    • ChessPositionRankingプロジェクトで生成された局面から、違法な手を提案しないか確認する
    • こうした局面は次の一手の合法性を試すには有用だが、質を見分けるにはあまり向いていない
  • 全員が間違っているわけではない

    • 公開されたベンチマークは、学習中に特定のターゲットとして扱われていると仮定すべきである
    • OpenAIが学習データにチェスの棋譜を含めるのは自然なことだ
  • LLMはまるで呪文を探しているように感じられる

    • 技術革新が続くことを願いつつ、LLMは驚異的だが時にSF映画のようにも感じられる
  • コードサンプルで学習すると「推論」が向上すると主張されている

    • 「言語から世界モデルへ」という論文が機能するなら、チェスが最小の事例であるはずだ
  • gpt-3.5-turbo-instructには、チェス記法を認識して外部のチェスエンジンを呼び出す特別なケースがある可能性がある

    • 特定のモデルがチェス記法を認識したとき、別のLLMへ切り替わるように学習されている可能性が指摘されている
  • LLMにゲームで勝つよう明示的に指示していないにもかかわらず、結果が測定されている

    • 「あなたはチェスのグランドマスターです」というプロンプトにそれが暗に含まれているのか、という疑問が呈されている
  • ファインチューニングは役に立ち、例示がファインチューニングを代替できる

    • 例を示すことがファインチューニングと同等の効果を持ちうる点が興味深い
  • プロンプトをあれこれ考えずにLLMとチェスを指すのは面白そうだ

    • LLMがどのように「考えて」いるのかを感じ取る新しい方法になるかもしれない