リチャード・サットンとアンドリュー・バート、2024年チューリング賞を受賞

(awards.acm.org)

1 ポイント投稿者 GN⁺ 2025-03-06 | 1件のコメント | WhatsAppで共有

ACMは、強化学習の概念的・アルゴリズム的基盤を築いた Andrew G. Barto と Richard S. Sutton を2024 ACM A.M. Turing Award受賞者に選出
両氏は1980年代から、報酬ベース学習を一般的な問題フレームワークとして定式化し、環境や報酬が未知の状況でも機能するアプローチを発展させた
中核的な貢献は、時間差学習、方策勾配法、ニューラルネットワークベースの関数表現、学習と計画を組み合わせたエージェント設計へとつながった
1998年の教科書 Reinforcement Learning: An Introduction は7万5,000回以上引用され、AlphaGo・ChatGPTのRLHF・ロボット操作・ネットワーク輻輳制御・チップ設計などに影響を与えた
チューリング賞にはGoogleの支援により賞金100万ドルが授与され、ACMは強化学習がAIの発展と脳の働きの理解の両方に貢献したと評価している

受賞者と選出理由

ACMは Andrew G. Barto と Richard S. Sutton を2024 ACM A.M. Turing Award受賞者に選出
選出理由は、強化学習の概念的・アルゴリズム的基盤を開発した功績によるもの
両氏は1980年代から論文を通じて強化学習の中核アイデアを導入し、数学的基盤と主要アルゴリズムを構築した
Barto は University of Massachusetts, Amherst の Information and Computer Sciences 名誉教授
Sutton は University of Alberta のコンピュータサイエンス教授であり、Keen Technologies のリサーチサイエンティスト、Amii(Alberta Machine Intelligence Institute) のフェロー
ACM A.M. Turing Award は「コンピューティング分野のノーベル賞」と呼ばれ、Google, Inc. の財政支援により100万ドルの賞金が授与される

強化学習が解く問題

人工知能は一般に、環境を知覚して行動するエージェントを作る分野
より知的なエージェントはより良い行動経路を選ぶ必要があり、どの行動が他より優れているかという判断がAIの中心にある
報酬(reward) は心理学や神経科学に由来する用語で、エージェントの行動の質に関連して与えられる信号を指す
強化学習は、この報酬信号に基づいてより成功裏に行動する方法を学ぶ過程
Alan Turing は1950年の論文「Computing Machinery and Intelligence」で「機械は考えることができるか？」を論じ、報酬と罰に基づく機械学習アプローチを提案した
Arthur Samuel は1950年代後半に自己対局で学習するチェッカープログラムを開発したが、その後数十年間、この系統のAIでは大きな進展がほとんどなかった

Barto と Sutton の技術的貢献

1980年代初頭、Barto と当時博士課程の学生だった Sutton は、心理学の観察から着想を得て、強化学習を一般的な問題フレームワークとして定式化し始めた
両氏はマルコフ決定過程(MDP) の数学的基盤を活用した
- MDPでは、エージェントが確率的環境で意思決定を行う
- 各遷移の後に報酬信号を受け取り、長期的な累積報酬を最大化することを目標とする
標準的なMDP理論はすべての情報がエージェントに知られていると仮定するが、強化学習のフレームワークは環境や報酬が未知の状況も扱う
必要な情報量が少なく、MDPフレームワークが一般的であるため、強化学習は多様な問題に適用できる
Barto と Sutton は共同研究とその後の協力を通じて、複数の基本的な強化学習アルゴリズムのアプローチを開発した
- 最も重要な貢献は、報酬予測問題の解決に大きな前進をもたらした時間差学習(temporal difference learning)
- 方策勾配法(policy-gradient methods) も主要アプローチに含まれる
- 学習された関数を表現する手段としてニューラルネットワークを用いるアプローチを発展させた
- 環境の知識を獲得して計画の基盤とする、学習と計画を組み合わせたエージェント設計も提案した

教科書と深層強化学習へと続く影響

1998年の教科書 Reinforcement Learning: An Introduction は現在もこの分野の標準的参考文献であり、7万5,000回以上引用されている
この教科書は、数千人の研究者が新興分野だった強化学習を理解し貢献する助けとなり、今日のコンピュータサイエンス研究活動にも影響を与えている
Barto と Sutton のアルゴリズムは数十年前に開発されたものだが、直近15年間で強化学習と深層学習アルゴリズムが結びつき、実際の応用で大きな進展が現れた
この結合は深層強化学習(deep reinforcement learning) 手法へとつながった
深層学習アルゴリズムは、2018年チューリング賞受賞者の Bengio、Hinton、LeCun が切り拓いたものとして紹介されている

応用事例と研究の広がり

強化学習の代表例として、2016年と2017年に AlphaGo がトップの人間囲碁棋士たちに勝利したことが挙げられる
ChatGPT も主要な成果に含まれる
- ChatGPT は2段階で学習された大規模言語モデル
- 第2段階では、人間の期待を捉えるために人間フィードバックによる強化学習(RLHF) を使用する
ロボット分野では、手の中でのロボット操作や物理的な Rubik’s Cube の解法事例がある
- 強化学習をシミュレーションで実行しても、かなり異なる現実世界で成功できることを示した
その他の応用分野には、ネットワーク輻輳制御、チップ設計、インターネット広告、最適化、グローバルサプライチェーン最適化、チャットボットの行動と推論能力の改善、行列乗算アルゴリズムの改善が含まれる
神経科学に着想を得た技術は、再び神経科学にも影響を与えている
- Barto の研究を含む最近の研究では、AIで開発された特定の強化学習アルゴリズムが、人間の脳のドーパミン系に関する複数の発見を最もよく説明するとされる

ACMとGoogleの評価

ACM President Yannis Ioannidis は、Barto と Sutton の研究が、コンピューティングの長年の課題に学際的アプローチを適用する可能性を示していると評価した
認知科学、心理学、神経科学は強化学習の発展に着想を与え、強化学習はAIの重要な進歩の基盤と脳の働きに対するより深い洞察の両方をもたらした
Ioannidis は、強化学習は通り過ぎた足場ではなく今も成長を続けており、コンピューティングとさまざまな分野にさらなる発展の可能性を提供していると述べた
Google Senior Vice President Jeff Dean は、Alan Turing が1947年の講演で「私たちが望むのは、経験から学べる機械である」と述べた点を引用した
Dean は、Barto と Sutton が切り拓いた強化学習は Turing の課題に直接応えるものであり、過去数十年のAI進展の中核軸であり続け、AIブームの中心的な柱であり続けていると評価した

受賞者略歴

Andrew Barto は University of Massachusetts, Amherst の Information and Computer Sciences 学科名誉教授
- 1977年に UMass Amherst で博士研究員としてキャリアを開始
- その後、Associate Professor、Professor、Department Chair などを歴任
- University of Michigan で数学の学士号、Computer and Communication Sciences の修士号と博士号を取得
- UMass Neurosciences Lifetime Achievement Award、IJCAI Award for Research Excellence、IEEE Neural Network Society Pioneer Award を受賞
- IEEE Fellow、AAAS Fellow
Richard Sutton は University of Alberta のコンピューティングサイエンス教授、ダラス拠点の汎用人工知能企業 Keen Technologies のリサーチサイエンティスト、Amii のチーフサイエンスアドバイザー
- 2017年から2023年まで DeepMind Distinguished Research Scientist を務めた
- 1998年から2002年まで AT&T Shannon Laboratory のAI部門で Principal Technical Staff Member として勤務
- Barto との協力は1978年に University of Massachusetts at Amherst で始まり、Barto は Sutton の博士課程および博士研究員時代の指導教員だった
- Stanford University で心理学の学士号、University of Massachusetts at Amherst で Computer and Information Science の修士号と博士号を取得
- IJCAI Research Excellence Award、Canadian Artificial Intelligence Association Lifetime Achievement Award、University of Massachusetts at Amherst Outstanding Achievement in Research Award を受賞
- Royal Society of London、Association for the Advancement of Artificial Intelligence、Royal Society of Canada のフェロー

1件のコメント

GN⁺ 2025-03-06

Hacker Newsのコメント

これを見ると本当にうれしい。実は私たち夫婦はAndy Barto夫妻の家を買った
購入手続きでは入札競争があり、「最高の提案を出してほしい」と言われたので、彼が数学者だと知って素数の金額で提案した。彼の業績が認められるのは素晴らしい
- 「公平にいきましょう、2ドルはどうですか？」と冗談を言ってもよかったかも
- 「素数の金額」ってことは $12345678910987654321 だったの？
- すごい話だ。その素数の金額がいくらだったのか気になる
素晴らしいし、十分に受賞に値する。2人とも強化学習の教科書を無料PDFで公開している
1982年から有給のAI実務者として働いてきたが、強化学習は個人的に習得が難しいテーマで、Sutton/Barto本とWhite教授らのCourseraの強化学習講義がとても助けになった。おすすめ
本のサンプルプログラムはCommon LispとPythonで提供されている: http://incompleteideas.net/book/the-book-2nd.html
今こそThe Bitter Lessonを読み返すのにいい時期だ: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson...
- 正式なURLはこちら: <http://www.incompleteideas.net/IncIdeas/BitterLesson.html>
- 本当に苦い教訓だ。以前は人間の知識をコンピュータにエンコードするのは楽しく、そのおかげで何が起きているのか理解できた
  今ではすべてが推論しにくい巨大なブラックボックスになりつつある。さらにムーアの法則は自己実現的予言になった。AIが計算能力への需要を大きく押し上げ、チップメーカーに専用ハードウェアを作らせ、それがフライホイールのように回っている
- AI研究の目標が何かによって少し変わる。人間の精神にしかできない、あるいは必要だと思われていた作業をうまくこなす機械を作るのが目標なら、この苦い教訓には十分な価値がある
  だが、機械にXをさせながら人間がどうXをしているのかも理解したいのなら、ますます複雑になる統計的構成から得られる情報は限られている。どちらか一方に肩入れするつもりはなく、より繊細なアプローチが必要かもしれないという意味だ
- コンピュータビジョンでも似た流れがあった。初期の手法はエッジや一般化円筒、SIFT特徴を見つけることで視覚を扱っていたが、今日ではそうしたものは捨てられ、現代のディープラーニングのニューラルネットワークは畳み込みと特定の不変性だけでずっと良い性能を出している
  ビジョンでパターンマッチングが衰退し始めたその時期に現場にいた。完全に消えたわけではなく、そのとき学んだことは今でも別の場所で役に立っている
- 古典的な自然言語処理の実務家たちが学んだであろう苦い教訓を思うとぞっとする。その文章は今でもなお正しい
彼らの本 Reinforcement Learning: An Introduction は、AI/機械学習分野でもっとも取っつきやすいテキストの1つなので強くおすすめする
- 強化学習に入ってみようとしたが、いつも数式やアスタリスク付きのあれこれで自分のレベルをはるかに超えていると感じた
- どういう背景があるのか気になる。残念ながら私はその本をそれほど取っつきやすいとは感じなかった
- あの本は読んでいて楽しい。強くおすすめする
- 言っている本はReinforcement Learning: An Introductionのこと？それとも他にも本を書いている？
バランスを取るなら物理学者たちに与えるべきだった
Suttonは人間継承主義者で、人類がみな死んでも気にしない人だという点は思い出しておく必要がある。信頼したり称えたりする相手ではない: https://www.youtube.com/watch?v=NgHFMolXs3U
- ACMの賞は彼らの専門的・学術的業績に対して与えられるものだ。誰かの私生活を掘り返していちばん奇妙な発言を探し出し、それで生涯の業績全体を悪として塗りつぶすような執着はやめるべきだ
  Aが気に入らず、その人がAを言ったりしたりしたからといって、世界を変えうるBに関する高貴な業績まで誰でも無効化できるというのは愚かで危険だ。インターネットは、その問題をよく知る人の判断と単なる反感を同じ重さで並べてしまう。こういうやり方がより大きな規模で人々を分断していて腹立たしい
- Suttonに直接会ったことはある？私が会った人の中でもっとも温かく、思いやりがあり、情熱的なヒッピーに近い。彼は人類がみな死ぬことを望んではいない
  リンクされた講演もその主張を裏づけていない。私が見落としたならタイムスタンプを示してほしい。講演で彼は、人類が自分たちの運命を単独で制御しなくなっても繁栄の時代につながるだろうと言っている。12:33の結論スライドには文字どおり「人類の長期的未来にとって最善の希望」という項目がある。これは「人類がみな死んでも気にしない」とは正反対だ
  私が継承の準備をしているからといって、娘が私を殺すことを望んだり期待したりしているわけではない。健康で長い引退生活を送り、その後は宇宙との共生関係の中で娘にできるだけ良い形で引き継げたと知って静かに眠りたいのだ
- 「人類がみな死んでも気にしない」というのは、彼の立場を厳しく誤解を招く形で表現したものに見える
  私には、彼は人間が最終的にトランスヒューマンに置き換えられるのは不可避だと信じている側に近いように見える。悪意というより、荒っぽいSF風のユートピア主義に思えるし、彼の学問的業績を称えるべきでない理由にはならないだろう
- そういう観点を知らせるのは興味深いが、同意しない見解を持っているという理由だけで、なぜ誰かを信頼したり称えたりしてはいけないのかはわからない
  とくに、Suttonがみんなの死を積極的に望んでいるという含みは根拠がかなり弱く見える
- 彼の最後のスライドには文字どおり「人類の長期的未来にとって最善の希望」と書かれている。主張と正反対だ
私が教えた授業で彼らの強化学習の本を使った。文章が美しく、無料で公開されている: http://incompleteideas.net/book/the-book-2nd.html
文章があまりに良くて、読んでいるうちに肝心の内容を見失うことがあった
Andrew BartoとRichard SuttonのTuring Award受賞を心から祝福する。学生時代、Reinforcement Learning: An Introduction はこの分野への入り口だった
とくに第6章 Temporal Difference Learning は、逐次的意思決定の見方を根本から変えた。今でも読むことを強く勧める、時代を超えた古典だ
長く待たれた受賞だ。1つのアイデアを最初から最後まで押し通し、動的計画法の本の下位章ではなく、1つの分野全体へと育て上げた
すべてが始まった場所でもあるゲームで、強化学習がもっと多く使われてほしい。本当に素晴らしいだろう
受賞に値する。強化学習はニューラルネットワークと組み合わせたときの柔軟性のおかげで、時間がたつほど重要になっていくだろう
スケールを拡大していけば、苦い教訓もそれほど苦くは感じられなくなるかもしれない

リチャード・サットンとアンドリュー・バート、2024年チューリング賞を受賞

受賞者と選出理由

強化学習が解く問題

Barto と Sutton の技術的貢献

教科書と深層強化学習へと続く影響

応用事例と研究の広がり

ACMとGoogleの評価

受賞者略歴

関連記事

1件のコメント

Hacker Newsのコメント