LLMのチェス異常現象は部分的に説明できる可能性
(dynomight.net)-
最近、大規模言語モデル(LLM)はチェスが苦手だという謎があった。しかし、gpt-3.5-turbo-instruct は例外的にアマチュア水準でチェスをうまく指す。このモデルは他の新しいモデルより古く、サイズも小さい。
-
複数の理論が提示されている:
- 理論1: 十分に大きいベースモデルはチェスが得意だが、チャットモデルへの指示チューニングではそうならない。
- 理論2: gpt-3.5-turbo-instruct はより多くのチェスデータを学習した可能性がある。
- 理論3: 特定の LLM アーキテクチャに何か特別なものがある。
- 理論4: データ型同士の「競合」があり、LLM がチェスをうまく指すにはチェス対局データが多く必要である。
- 理論5: OpenAI が不正をしているという主張。
- 理論6: LLM は実際にはチェスをできないという主張。
-
OpenAI が不正をしているという主張は信じがたい。gpt-3.5-turbo-instruct はチェスエンジンとは異なる方法で手を選び、専門家の基準では優れているわけでもない。
-
LLM はチェスを指すことができる。gpt-3.5-turbo-instruct は違法な手をほとんど提案せず、新しい盤面状態でもうまくプレイする。
-
gpt-3.5-turbo-instruct は「補完」モデルで、テキストを受け取って新しいテキストを生成する。gpt-4o-mini と gpt-4o は「チャット」モデルで、システムプロンプトとユーザープロンプトを使用する。
-
さまざまな実験を通じて、プロンプト調整、例の追加、ファインチューニングなどがモデル性能に影響しうることを確認した。
-
例の追加は性能に大きな影響を与え、ファインチューニングも役立つ。しかし、合法手を提供することは性能を低下させる。
-
gpt-4o を「補完」モードのように動作させるよう誘導すると性能が向上する。これは gpt-4-base がチェスに強い可能性を示唆する。
-
結論として、OpenAI のベースモデルはより多くのチェスデータを学習している可能性が高く、チャットモデルは補完モデルより性能が低い可能性がある。
-
最適なプロンプトと例、ファインチューニングを見つけることは難しく、コストも高い作業である。
1件のコメント
Hacker Newsの意見
投稿者は違法な手の頻度に関するデータを示していないため、有意義な結論を導くのは難しい
gpt-3.5-turbo-instructは終盤でも違法な手をほとんど提案しない
チェスを理解しているかを試す方法として、1000のランダムな合法局面から次の一手を指させる
全員が間違っているわけではない
LLMはまるで呪文を探しているように感じられる
コードサンプルで学習すると「推論」が向上すると主張されている
gpt-3.5-turbo-instructには、チェス記法を認識して外部のチェスエンジンを呼び出す特別なケースがある可能性がある
LLMにゲームで勝つよう明示的に指示していないにもかかわらず、結果が測定されている
ファインチューニングは役に立ち、例示がファインチューニングを代替できる
プロンプトをあれこれ考えずにLLMとチェスを指すのは面白そうだ