- 強化学習(Reinforcement Learning) の中核概念と応用を扱うスタンフォード大学の大学院レベル講義で、自律システムが自ら意思決定を学習する原理を中心に構成
- ロボティクス、ゲーム、消費者モデリング、ヘルスケア など多様な分野の問題をRLとして定義し解決する方法を学習
- 講義・筆記課題・コーディング課題 を通じて、基本的なRLアルゴリズムから 深層強化学習(Deep RL) まで、実践中心で習得
- 受講生は Python、線形代数、確率統計、機械学習の基礎 を事前に身につけている必要があり、課題はGradescopeを通じて提出
- RLの 探索と活用のトレードオフ、方策探索、オフラインRL、AlphaGoの事例 などを含む体系的なカリキュラムで構成されており、AI研究および応用開発の中核的な能力強化に重要
講義概要と運営
- 人工知能の目標達成のために 自律的に意思決定を学習するシステム の必要性を強調
- 強化学習はこのようなシステムを実現する強力なパラダイムであり、さまざまな実世界の応用に活用可能
- 講義は 火曜日と木曜日 にリアルタイムで実施され、録画映像はCanvasを通じて提供
- Ed Forum を通じて質疑応答を行い、Gradescope で課題とクイズを管理
- Emma Brunskill が担当教員であり、複数のTAが支援
履修前提要件
- Pythonプログラミング能力 が必須で、すべての課題はPythonで作成
- 大学レベルの微積分、線形代数、確率統計 の知識が必要
- 機械学習の基礎(例: CS221, CS229)の理解が求められる
- コスト関数の定義、勾配降下法による最適化、凸最適化の概念を含む
学習目標
- 強化学習を 対話的でない機械学習と区別する中核的特徴を定義
- 与えられた応用問題をRLとして定式化し、状態空間・行動空間・報酬モデル を設計
- 方策探索、Q-learning、MDP計画 など主要なアルゴリズムを実装
- regret、サンプル複雑性、計算複雑性、収束性 などの評価基準を理解
- 探索と活用(exploration vs exploitation) 問題への多様なアプローチを比較
講義日程要約
- 第1週: 強化学習入門、Tabular MDP計画
- 第2週: 方策評価、Q-learningおよび関数近似
- 第3〜4週: 方策探索(1〜3)、オフラインRLおよび模倣学習
- 第5週: 中間試験、DPOトピック
- 第6〜7週: オフラインRLの発展、探索(1〜3)
- 第8週: 探索(4)、ゲスト講演、プロジェクトマイルストーン提出
- 第9週: Monte Carlo Tree Search / AlphaGo、クイズ
- 第10〜11週: ゲスト講演、最終プロジェクトのポスターセッションおよびレポート提出
教材と参考資料
- 公式教科書はなく、主要参考書は Sutton & Bartoの “Reinforcement Learning: An Introduction (2nd Ed.)”
- 追加資料として Wiering & van Otterloの Reinforcement Learning: State-of-the-Art、Russell & Norvigの Artificial Intelligence: A Modern Approach、Goodfellowの Deep Learning、David Silverの RL講義 などを提示
評価配分
- 課題 1: 10%、課題 2: 18%、課題 3: 18%
- 中間試験: 25%、クイズ: 5%、プロジェクト: 24%
- 提案書 1%、マイルストーン 2%、ポスター 5%、論文 16%
- 講義参加ボーナス: 最大 0.5%
遅延と提出ポリシー
- 合計 5日間の遅延許容日(late days) を提供
- 各課題ごとに最大2日まで使用可能で、超過時は減点を適用
- 締切後24時間以内の提出は最大50%の得点、それ以降の提出は0点扱い
- ポスター発表および最終論文には遅延許容なし
試験
- 中間試験1回、クイズ1回 を実施し、いずれも学内対面試験
- 正式な理由がある場合は遠隔または代替試験が可能
- 持ち込み可資料: 手書きノート1枚(中間)、両面1枚(クイズ)
- 禁止: 電卓、ノートPC、携帯電話、タブレットなど
課題と提出
- すべての課題は Assignmentsページ に掲載
- 一部の課題では クラウドコンピューティング資源 の利用が可能
- 提出指示は専用ページで確認
学業倫理とAIツール使用
- 記述課題はアイデアの議論は可能だが、解答は独立して作成 しなければならない
- コーディング課題は 入出力結果のみ共有可能 で、コード共有は禁止
- 類似度検査ソフトウェア で剽窃の有無を確認
- 生成AI(GPT-4, Gemini, Copilot など) の使用は人間との協働レベルで許容
- 直接的なコード生成や解答の丸写しは禁止
- 使用時には明示する必要があり、最終責任は本人にある
- LLMをプロジェクトの共同著者として記載することは不可
学業支援と評価への異議申し立て
- 障害に関連する学業支援は Office of Accessible Education(OAE) を通じて申請可能
- 再採点申請 は成績公開後3日以内にGradescopeで提出可能
- 再確認時には課題全体が再評価される場合がある
単位と履修形態
- Credit/No Credit 履修時も同一の評価基準を適用
- C-以上(約70%) の達成でCRを付与
その他
- SCPD学生 は専用メールを通じて事務問い合わせが可能
- ウェブサイトデザインは Andrej Karpathy が制作
1件のコメント
Hacker Newsの意見
講義動画が公開されたのかと思って期待したが、実際に見てみると非公開だった。
パンデミック時代には多くの機関が資料を世界中に公開していたのに、最近は新しい講義だけでなく過去の動画まで閉じられていく傾向にある。
MIT OCWも高度な大学院課程になると資料が消えてしまう。
もちろん大学が同窓生を優先すべきだというのは理解できるが、講義動画のような基本資料を公開することには実質的にほとんど費用がかからない。
こうした資料は世の中に大きな価値を与えると思う。
一部の教授は講義スライドや録画を著作権の問題で共有したがらない。
だがこうした態度は、本当の名声ではなく法的障壁によって排他性を作っているように思える。
結局得をするのは高い授業料を払った学生、変わりたくない講師、そして大学の管理者だけだ。
「RLは最悪の学習方法だが、他のあらゆる方法よりはましだ」という言い方がある。
多くの科学者は、10年後にはRLが最先端モデル学習の主流ではなくなっていると考えている。
私も同意しており、この講義を聞きながら別のパラダイムも考えてみることを勧めたい。
画像生成がdiffusion modelで、GPTがRLHFで飛躍したように、RLも最終段階ではないはずだ。
私たちの課題は、それより優れた方法を見つけることだ。
十分な実行時間が与えられれば、数学的に最適解を保証する。
だから自動運転車はGPTではなくRLを使う。
数百万〜数十億の訪問を最適化する際、contextual multi-armed banditを加えると購買誘導に非常に効果的だ。
だが実務では、out-of-distribution 一般化は単純な報酬ベース学習では不可能だと気づいた。
動画が公開されているのか気になっていたが、春学期の講義はYouTubeプレイリストにある。
従来型のMLしか学んでこなかった立場として、RLを一般的な問題にどう適用すべきなのか混乱している。
たとえばBCE lossを使う二値分類や住宅価格予測の問題に、RLを無理に適用するとしたらどうすればいいのか分からない。
損失関数とのつなぎ方の感覚がつかめない。
住宅価格予測のような明確な回帰問題では既存手法で十分に効果的であり、RLは不要だ。
一方で囲碁のような逐次的意思決定問題では報酬シグナルが疎で、戦略改善も不明瞭なためRLが適している。
RLはラベルのない複雑な状況で有用だが、チェスのような問題でさえ結局は教師あり学習の問題に変換することが核心だ。
状態空間と行動空間が定義された逐次的意思決定問題に適しているが、二値分類や回帰には合わない。
RLは将来の結果が分からない状況で現在の意思決定を下さなければならない問題に強い。
RLは不安定で収束しにくいという評価が多い。
Stanfordの研究陣も認めている。
解決策があるのか気になる。
単一の最大値ではなく報酬分布全体を学習することで安定性を高める。
Ilyaのポッドキャストを聞いた後だと、今回の講義タイトルが興味深く感じられる。
RL関連のおすすめ書籍を探している。
すでにディープラーニングは十分に勉強した。
SuttonのReinforcement Learning、Kevin Patrick MurphyのReinforcement Learning, an overview、Sebastian Raschkaの新刊などを検討中だ。
無料PDFはalgorithmsbook.comで入手できる。