コンピュータサイエンス > 機械学習
- タイトル: Adversarial Policies Beat Superhuman Go AIs
- 著者: Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell
- 提出日: 2022年11月1日 (v1)、最終更新日2023年7月13日 (v4)
概要
- 研究チームは最先端の囲碁AIシステムであるKataGoを対象に敵対的ポリシーを訓練し、超人的設定でKataGoに対して97%を超える勝率を達成した。
- この敵対的ポリシーは囲碁を上手に打って勝つのではなく、KataGoが重大なミスをするよう誘導する。
- この攻撃は他の超人的囲碁AIにもゼロショットで転移し、アルゴリズムの助けなしで人間の専門家が一貫して超人的AIを打ち負かせるほど解釈しやすい。
- 攻撃に対抗するよう敵対的訓練を施されたKataGoエージェントでも、発見された主要な脆弱性が持続した。
- 研究結果は、超人的AIシステムにも驚くべき失敗モードが存在し得ることを示している。
追加情報
- 論文ステータス: ICML 2023に採択
- トピック: 機械学習 (cs.LG); 人工知能 (cs.AI); 暗号学とセキュリティ (cs.CR); 機械学習 (stat.ML)
- ACM分類: I.2.6
- 引用: arXiv:2211.00241 [cs.LG](または arXiv:2211.00241v4 [cs.LG] この版)
- 提出履歴:
- [v1] 2022年11月1日
- [v2] 2023年1月9日
- [v3] 2023年2月18日
- [v4] 2023年7月13日
アクセス方法
- PDFや他の形式で論文を入手可能
- 関連論文と引用ツールを提供
arXiv情報
- arXivは研究論文を共有するプラットフォームであり、さまざまなトピックの論文を提供する。
1件のコメント
Hacker Newsの意見
あるユーザーは、論文は最初は驚くべき内容だが理解しにくいと述べた。GoとGo AIについて少し知っており、チェスとチェスAIにはかなり詳しいにもかかわらず、説明が不足していて専門用語が多く、理解が難しいと感じている
チェスのエッジケースを提示し、StockfishとLc0の評価を比較した
Goでは、アマチュアが予測不能な手で相手に対して挑戦的になりうると述べている
Deep Blue以降、チェスプレイヤーがコンピュータに対する戦略を改善してきたことを想起させる
チェスにおいても、より多くの計算が勝利をもたらすと述べている
2022年から2023年に修正された論文に言及し、以前に見たことがあるかもしれないと述べている
人間にも希望があると述べている
論文は、Go AIにおける敵対的戦略への防御を統合するために使われるだろうと述べている
「我々の結果は超人的なAIシステムにも驚くべき失敗モードが存在しうることを示している」という結論は空虚だと述べている