1 ポイント 投稿者 GN⁺ 2024-11-15 | 1件のコメント | WhatsAppで共有
  • LLMとチェスの奇妙な現象

    • LLM(大規模言語モデル)がチェスをうまく指せるのかについて議論があった。LLMは言語予測のために設計されているが、チェスの対局を予測する能力を示している。
    • LLMがチェスの対局を最後まで進められるという事実は興味深かった。これは、LLMが他の状況でもどのように動作するのかを示す手がかりかもしれない。
  • 私がやったこと

    • LLMにチェスを指させるために特定のプロンプトを使った。たとえば、「あなたはチェスのグランドマスターです。次の一手を選んでください。」という形で依頼した。
    • llama-3.2-3bモデルを使って50局を行ったが、結果は良くなかった。より大きなモデルであるllama-3.1-70bllama-3.1-70b-instructも試したが、それでも良くなかった。
    • gpt-3.5-turbo-instructモデルは非常に優れた性能を示した。しかし、他のモデルはすべて良くない結果だった。
  • 議論

    • 多くの人がLLMを使ってチェスを試したが、ほとんどのモデルは良い結果を出せなかった。
    • gpt-3.5-turbo-instructモデルが他のモデルよりチェスをうまく指せる理由について、いくつかの理論がある。
    • 追加の指示チューニングがモデルの性能を低下させる可能性があるという理論がある。
  • あり得る理論

    • 理論1: ベースモデルは十分な規模があればチェスを指せるが、指示チューニングがそれを妨げている。
    • 理論2: gpt-3.5-instructは、より多くのチェスの対局で訓練されていた可能性がある。
    • 理論3: 別のTransformerアーキテクチャの違いがあるかもしれない。
    • 理論4: データ型どうしの「競合」があるかもしれない。
  • 詳細

    • チェスの対局のために標準代数記法を使って実験を行った。
    • OpenAIのモデルは完全な文法サポートがないため、合法手を生成するまで最大10回試行した。
  • トークンの奇妙な現象

    • プロンプトに空白が含まれると、モデルの性能が大きく低下した。これはトークナイザーの問題に見える。
    • 正しい方法は「トークンヒーリング」を使うことだが、これを簡単に実装する方法は見つけられなかった.

1件のコメント

 
GN⁺ 2024-11-15
Hacker Newsの意見
  • OpenAIがチェスを重要な基準と見なし、gpt-3.5-turbo-instructに特別な処理を施していた一方で、後継モデルにはそれを追加しなかった可能性を見落としているように思える

    • チェスは継続的なメディア報道を生まなかったからかもしれない
  • Q5_K_M量子化であらゆるオープンモデルを実行したが、これはすべてのパラメータに対する損失圧縮にすぎず、重要ではないと考えている

  • 教育を受けた人たちが、LLMはチェスが得意なはずだと期待する理由が理解できない

    • チェスには実際の推論と決定論的な計算が必要である
  • 良い結果が再現可能なのか気になる

    • 過去に良い結果を得たことはあるが、再度再現することはできなかった
    • ベンチャーキャピタルの経済学は、「ごまかし」と見なされる技術を正当化しなければならないという圧力を意味する
  • 本当に知的なモデルを望むなら、トークン化をやめるべきかもしれないと思う

    • 情報ストリームの構造を制限することで、モデルの視野と認識を制限している
  • gpt-3.5-turbo-instructのほうがチェスで優れているという実験結果を見つけた

  • チェスを学ぶことが順序を学ぶことだとすれば、問題が発生する可能性がある

    • 現代のチェスエンジンは、少なくともすべてのプレイヤーと引き分けを記録できる
  • 問題の探索空間で計算量を増やすことを試してみることはできる

    • 初心者チェスプレイヤーでも実行できる段階的な指示を与えることで、さまざまなパラメータを調整できる
  • GPT-3.5-instructは、従来のチェスエンジンを呼び出してチェスをプレイできるという理論がある

  • 人間の多様な経験の中には、多様な種類の技能と知能が存在することを知っている

    • モデルがチェスに強いのは、たまたま適切な「連結体」を持っていたからかもしれない