- LLMたちがポーカーの実力を競う世界初の賞金付きトーナメントで、AIの不完全情報ゲームにおける推論能力を検証するために企画された
- 現在はGrok 4が1位で、Gemini 2.5 Pro、Claude Sonnet 4.5、DeepSeek R1、OpenAI o3が続く
- テキサスホールデム $10/$20 キャッシュゲーム形式で、9人テーブル4卓が同時進行し、1週間で最も多くの資金を蓄積したモデルが優勝する
- すべての参加モデルは同一のシステムプロンプトを使用し、各意思決定の時点でLLMが手札・スタック・相手の統計・メモをもとに判断と行動を生成する
- 人間プレイヤーなしでモデル同士の対戦のみで進行するため、アルゴリズムの効率性と学習成果を直接比較できる
- トーナメント後には各モデルのハンドごとの推論データセットと思考過程が分析され、LLMの戦略的思考の質を評価する資料として活用される
- 今回の実験はAIの推論の信頼性と戦略的学習の潜在力を検証しようとする試みであり、人間中心の確率的思考を理解する新たな研究形態として注目されている
PokerBattle.ai 概要
- PokerBattle.aiはLLMを対象とした初の賞金付きポーカートーナメント
- 参加者は人間ではなく言語モデルであり、各モデルがポーカー戦略を自ら実行する
- 実際の賞金が懸かっており、競争の結果が金銭的に結びつく仕組み
- このプロジェクトはAIの戦略的判断能力を検証するための実験的プラットフォームとして設計された
- ポーカーという不完全情報ゲームを通じて、モデルの推論力と適応力を評価
- 単純な言語生成ではなく、意思決定に基づく行動評価に焦点を当てる
大会概要と目的
- ポーカーは不完全情報と確率的判断が中核となるゲームであり、リスクとリターンのバランスを扱う複雑な意思決定構造を持つ
- LLMがこうした問題を合理的に解釈し、一貫した戦略を構築できるかを実験するために大会が組織された
- ポーカー学習の伝統的な方法(ハンド分析、数学的計算、ソルバーの利用など)をLLMが統合的に実行できるかを検証することが目的
進行方式
- すべての試合はLLM同士の直接対決の形で進行
- 人間プレイヤーは参加せず、各モデルが独立して行動を決定する
- 結果はポーカーのルールに従って自動計算され、勝敗と賞金が決まる
- リアルタイム進行と結果公開によって透明性を確保
- 各モデルの行動ログや戦略的選択が記録され、分析できる
- 第1段階: データ収集(10月27〜31日)
- 第2段階: ハンドと推論の分析
- 第1段階ではリアルタイムのオンライントーナメントを実施し、各LLMのプレイデータを収集
- その後、各モデルの推論経路(reasoning trace) を分析して、戦略的判断力を比較する
トーナメントルール
- ゲーム形式: テキサスホールデム、$10/$20 ブラインド、アンティ/ストラドルなし
- 構成: 9人テーブル × 4卓同時進行
- スタック管理: 100bbを下回ると自動リフィル
- 勝利条件: 1週間後に最も大きなバンクロールを保有するモデルが優勝
モデルの動作方式
- すべての参加LLMは同一のシステムプロンプトをもとに動作する
- 各ターンでモデルは次の情報を入力として受け取る:
- 現在のハンド情報(ポジション、スタック、カード)
- 相手プレイの統計(VPIP、PFR、3bet など)
- 以前のハンドで作成された相手のメモ
- モデルの出力:
- 決定に対する論理的推論
- 実行する行動(コール、レイズ、フォールド など)
- 視聴者向け要約(reasoning summary)
- トークン制限があり、応答エラーや時間超過時は自動フォールド(fold) として処理される
主催者
- Max Pavlov — プロダクトマネジメントの専門家であり、ディープラーニング・AI・ポーカーの愛好家
- LLMが複雑な確率的思考と人間的な戦略推論をどこまで実現できるかを探るためにこのプロジェクトを設計した
2件のコメント
わあ、これ、モデルのチューニングをされている方の記事でもインタビューでも講義でも、公開されているものがあれば見てみたいですね。
Hacker Newsの意見
私はアルゴリズムゲーム理論を専攻して博士号を取り、ポーカー研究をしていた
こうした理由から、現状のLLMがポーカーを強くプレーするのは技術的に不可能だ。チェスと違って、ポーカーには決定的な最適戦略がなく、一貫性の維持が必要だからだ
最も難しかったのは、モンテカルロシミュレーションを効率よく実装することだった。プレイヤーのハンド履歴に基づいて確率的な重み付けを行い、その人特有のランダム性を反映させる必要があった
ゲーム理論は使わなかったが、もし使っていればもっと良くなっていただろう。LLMがこうした概念を理解できる可能性はまったくない
将来は、LLMが外部のゲームエンジンを呼び出せる能力が重要になるだろう。だがその場合、結局ゲームをプレーしているのはエンジンだ。すでにプロレベルのポーカーボットは存在する
Pluribusは固定スタックに限られ、訓練もプレーも計算量が非常に大きい
LLMが混合戦略を学習できないという主張には同意しない。LLMはトークン分布を出力し、そこからランダムにサンプリングするからだ
ポーカーはゼロサムゲームなので、運が序盤に大きく作用することがある。たった1回のトーナメントでは統計的信頼性が低い
さらにデータにも妙な点がある — 合計額が$20多く、一部のハンド番号が欠けており、$30アンティがあるのに**$0ポット**が存在する。
こうした点から、結果の信頼性には疑問が残る
LLM同士が互いに会話しながらブラフできるなら、本当に面白い実験になると思う。観戦用としても楽しそうだ
私は不完全情報ゲームの専門家で、今回の実験は非常に興味深い
ポーカーやDiplomacyのようなゲームはチェスよりはるかに難しく、特に3人以上のポーカーはゼロサムではないため、ナッシュ均衡が存在しない
こうしたゲームは現実の意思決定に似ており、LLM研究にとって良い実験場になる
現在最高のポーカーAIはCounterfactual Regret Minimization(CFR)ベースで、リアルタイム探索を組み合わせている
Noam Brownはこの方式をテスト時探索へと拡張してPluribusを作り、これはプロに勝った
その後、彼はOpenAIに加わり、o1-previewモデルの「thinking」機能にもこうしたアイデアが反映されているようだ
ポーカーAI研究は、最新のAI進歩に大きな影響を与えている
私は大学時代にポーカーAIで50万ドルを稼ぎ、その後PokerTableRatings.comを作って不正行為を検出した
会社をZyngaに売却し、Zynga Poker CTOとして働き、最近はpokerskill.comを通じてPluribusベースの学習プラットフォームを開発中だ
私たちはTEN Protocolで、ブロックチェーンとTEEベースの乱数生成を使ってLLMポーカートーナメントを行った
5人のLLMが数か月にわたって複数の大会を戦い、最長のゲームは50時間以上続いた
ゲームのスクリーンショット、ツイート要約、記事リンクを参照
望むなら新しいトーナメントを開いて観戦することもできる
LLMが今後どんどん良くなるのか気になる。私も自分で参加してみたい
ただ、現時点では基本的なハンド認識すら間違えることがある。たとえば「トップペア」だと言っていたのに、実際には違った
私はrs-pokerの作者だ。LLMがポーカーをうまくプレーするには数学、嘘、ランダム性が必要だが、現状ではどれも不足している
最適手を計算する方法はわかっているが、計算量が大きすぎる
ただし、**BERTベースのアテンション(attention)**モデルでポーカーを解ける可能性はある。より良いデータセットと専用モデルの訓練が必要だ。興味があれば連絡してほしい (elliott.neil.clark@gmail.com)
単純な学習構造でも、かなりうまく訓練できそうだ
今回の実験は、LLMが論理的思考なしに圧縮やOCRのような作業にしか強くないことを示している
たとえば「ボードがペアになるとストレートが完成しうる」といった初歩的な誤りが頻繁に起きる
このレベルでは、AGIへの道のりはまだ遠いと思う
LLMがプレーするときのプロンプト構造が公開されている
各ターンでシステムプロンプトは同一で、LLMはプレイヤー統計(VPIP, PFR, 3bet など)と過去のノートを参照する
応答には理由、行動、要約が含まれ、トークン制限がある。問題が起きた場合はフォールドとして処理される
モデルが他モデルの統計を直接見ているのはやや残念だ。
ノートと文脈だけで判断させた方が、もっと面白くなりそうだ。コスト削減のためかもしれない
この実験は本当に天才的なアイデアだと思う
この実験設計では、AIが新しい戦略を進化させるのは難しそうだ。ポーカーをテキストで扱うのは、数学のような抽象的な現実理解の不足という問題に似ている
もし会話とブラフが許されるなら、本当に笑えて面白い実験になりそうだ 😄