-
LLMとチェスの奇妙な現象
- LLM(大規模言語モデル)がチェスをうまく指せるのかについて議論があった。LLMは言語予測のために設計されているが、チェスの対局を予測する能力を示している。
- LLMがチェスの対局を最後まで進められるという事実は興味深かった。これは、LLMが他の状況でもどのように動作するのかを示す手がかりかもしれない。
-
私がやったこと
- LLMにチェスを指させるために特定のプロンプトを使った。たとえば、「あなたはチェスのグランドマスターです。次の一手を選んでください。」という形で依頼した。
llama-3.2-3bモデルを使って50局を行ったが、結果は良くなかった。より大きなモデルであるllama-3.1-70bとllama-3.1-70b-instructも試したが、それでも良くなかった。
gpt-3.5-turbo-instructモデルは非常に優れた性能を示した。しかし、他のモデルはすべて良くない結果だった。
-
議論
- 多くの人がLLMを使ってチェスを試したが、ほとんどのモデルは良い結果を出せなかった。
gpt-3.5-turbo-instructモデルが他のモデルよりチェスをうまく指せる理由について、いくつかの理論がある。
- 追加の指示チューニングがモデルの性能を低下させる可能性があるという理論がある。
-
あり得る理論
- 理論1: ベースモデルは十分な規模があればチェスを指せるが、指示チューニングがそれを妨げている。
- 理論2:
gpt-3.5-instructは、より多くのチェスの対局で訓練されていた可能性がある。
- 理論3: 別のTransformerアーキテクチャの違いがあるかもしれない。
- 理論4: データ型どうしの「競合」があるかもしれない。
-
詳細
- チェスの対局のために標準代数記法を使って実験を行った。
- OpenAIのモデルは完全な文法サポートがないため、合法手を生成するまで最大10回試行した。
-
トークンの奇妙な現象
- プロンプトに空白が含まれると、モデルの性能が大きく低下した。これはトークナイザーの問題に見える。
- 正しい方法は「トークンヒーリング」を使うことだが、これを簡単に実装する方法は見つけられなかった.
1件のコメント
Hacker Newsの意見
OpenAIがチェスを重要な基準と見なし、gpt-3.5-turbo-instructに特別な処理を施していた一方で、後継モデルにはそれを追加しなかった可能性を見落としているように思える
Q5_K_M量子化であらゆるオープンモデルを実行したが、これはすべてのパラメータに対する損失圧縮にすぎず、重要ではないと考えている
教育を受けた人たちが、LLMはチェスが得意なはずだと期待する理由が理解できない
良い結果が再現可能なのか気になる
本当に知的なモデルを望むなら、トークン化をやめるべきかもしれないと思う
gpt-3.5-turbo-instructのほうがチェスで優れているという実験結果を見つけた
チェスを学ぶことが順序を学ぶことだとすれば、問題が発生する可能性がある
問題の探索空間で計算量を増やすことを試してみることはできる
GPT-3.5-instructは、従来のチェスエンジンを呼び出してチェスをプレイできるという理論がある
人間の多様な経験の中には、多様な種類の技能と知能が存在することを知っている