確率的人工知能技術

(arxiv.org)

1 ポイント投稿者 GN⁺ 2025-03-12 | 1件のコメント | WhatsAppで共有

確率的人工知能は、予測値だけを出すAIを超えて、不確実性を推論し、それを意思決定に反映するアプローチを扱う
資料の前半部は 確率的機械学習 に焦点を当て、データ不足から生じる認識論的不確実性と、観測ノイズのように減らしにくい偶然的不確実性を区別する
Bayesian linear regression、Gaussian process models、Bayesian neural networks を通じて確率的モデリングを扱い、計算が難しい推論・予測には 近似推論 を用いる
後半部は、active learning、Bayesian optimization、reinforcement learning のような 逐次的意思決定 において、不確実性がデータ収集と探索をどのように導くかを説明する
1学期の大学院入門課程に合わせた資料であり、確率・微積分・線形代数・基礎機械学習の知識があると内容を追いやすい

確率的AIが扱う中核的な問題

人工知能は、ゲームプレイ、言語翻訳、自動車の運転のように、人間の知能の一部の側面が必要だと考えられる作業を実行する人工システムの科学と工学を指す
近年のAIの発展は学習ベース・データベースのアプローチと結びついており、機械学習 とディープラーニングはコンピュータシステムが世界を認識する方法を拡張している
強化学習は、Go のような複雑なゲームや四足歩行のようなロボティクス作業で成果を上げている
知的なシステムには、予測値だけでなく、予測の 不確実性 を推論し、それを行動選択に反映する能力が必要である

確率的機械学習

前半部は確率的機械学習アプローチを中心に構成される
不確実性は2種類に分かれる
- 認識論的不確実性(epistemic uncertainty): データ不足に由来し、より多くの情報によって減らせる不確実性
- 偶然的不確実性(aleatoric uncertainty): ノイズのある観測や結果のように、本質的に減らしにくい不確実性
主な確率的推論モデルは次のとおり
- Bayesian linear regression
- Gaussian process models
- Bayesian neural networks
こうしたモデルでは推論と予測がしばしば計算的に難しくなるため、現代的な 近似推論 手法もあわせて扱う

逐次的意思決定における不確実性の活用

後半部は、時間の経過とともにデータを集め、行動を選択しなければならない逐次的意思決定タスクに焦点を当てる
Active learning と Bayesian optimization は、認識論的不確実性を減らすのに有益な実験を提案してデータを収集するアプローチである
強化学習は、不確実な環境で行動を学習するエージェントをモデリングする枠組みである
Markov Decision Processes の基本的な形式を経て、ニューラルネットワークの関数近似を用いる現代的な deep RL アプローチへとつながる
最後には、認識論的不確実性と偶然的不確実性を活用して探索を導き、安全性まで考慮する model-based RL アプローチを扱う

読者対象と前提知識

確率的機械学習と逐次的意思決定に関する、1学期の大学院入門課程の資料として活用できる
多様な背景の読者を対象としているが、次の基礎知識を前提とする
- 確率の基本概念
- 微積分
- 線形代数
- ニューラルネットワークを含む基礎機械学習
第1章は、以降の内容のための 確率的推論 を無理なく導入し、確率論の中核概念もあわせて復習する
原稿の後半には、追加の数学的背景に関する中核概念を復習する章が含まれる

学習構成

歴史的な展開よりも中核概念とアイデアに焦点を当てる
より深い学習と歴史的文脈は参考文献を通じてたどれるように構成されている
各章の末尾には 演習問題 が含まれる
本文で疑問符表示とともに強調された項目は演習問題を指す
すべての演習問題の解答は原稿の後半で確認できる

1件のコメント

GN⁺ 2025-03-12

Hacker News のコメント

本文は説明用の図表が素晴らしく、確率の観点から見た機械学習を数学的によく概観した質の高い概要に見える
最近では、Zhao の無料教科書と YouTube 講義である Mathematical Foundation of Reinforcement Learning も印象的だった: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
あまり時間がないなら、分野全体の概念マップとして優れた Zhao の目次概要図だけでも見るとよい: https://github.com/MathFoundationRL/Book-Mathematical-Founda...
可能なら紹介動画もおすすめ
- 最初の講義が本当に良い。内容だけでなく、Zhao が学生として学習をどう捉えるべきかを説明するやり方も素晴らしい
数日前にこの資料を見た。真剣に読んでみる理由は、Andreas Krause がガウス過程とバンディットの分野で深く興味深い研究をしてきたから
[1] https://scholar.google.com/scholar?start=10&q=andreas+krause...
- Krause なら、この分野の大物研究者の一人。私が読んだ他の仕事を基準にすると文章も上手なほうなので、読む価値がありそう
愚かな質問かもしれないが、LLM は今出した答えの確率を教えてくれるのだろうか？つまり、ファジー論理のように変えられるのかが気になる
さらに、自分自身をどれくらい信じているかも言えるのだろうか？上の確率が正しい確率、つまり信頼度や直観主義的ファジー論理のようなものだ
昔、大学でこういうものを少し学び、各項に F+IF、つまり確率と信頼度係数を持つ Prolog インタプリタも作ってみた
- デフォルトの状態では難しいと思う。そうした自己評価は信用しないだろう
  計算資源が十分にあればビーム探索を行い、出てきた答えのうち実質的に同じ答えがどれくらいあるかを LLM で評価して、「信頼度」の代理指標を作ることはできそう
- 私の理解では、LLM の応答は各位置で最も確率の高いトークンの連鎖だ。より複雑な候補生成・選択方式はあり得るが、単純に最大値を選ぶ方式として考えてもよい
  単純化のためトークンを単語とすると、文の順序上、各単語の確率は見られる。ただし、それを文全体の確率や真である確率としてどう評価するかはよく分からない
- 「この出来事が起こる確率を何％と見るか、その理由も教えて」と言うと、かなり多くの文脈と思考過程を出してくれる
  数学畑の人間ではないし、「確率」にもっと複雑な数学的意味があることも分かっているが、「なぜそこまで強く信じるのか？」という観点では、同意したり反論したりできる説明をかなりうまくしてくれると感じた
  自分が知っている追加の文脈を入れると推定も洗練される。だから最近は LLM を文脈接続システムのように扱い、点と点を自分で結ぶ前に、そもそも結び付く可能性があるかを見る用途で使っている
- 正確に何を意味しているのか 100% の確信はないが、一部の提供者はトークン確率を提供している: https://cookbook.openai.com/examples/using_logprobs
- 適切に修正すれば可能。ベイズニューラルネットワークは不確実性の定量化を提供する
  難しいのは予測を較正することであり、モデル容量を不確実性の定量化に使うことが、より大きな不確実なモデルを作ることより良いのかを判断すること
  https://en.wikipedia.org/wiki/Calibration_(statistics)
  例: Efficient and Effective Uncertainty Quantification for LLMs (https://openreview.net/forum?id=QKRLH57ATT)
解釈可能性を大衆化して、ゲーマーでもモデルを探索できるようにするには、モデル用のGUIが必要に思える。基本的には別のモデルを学習させて LLM を 3D 形状に変換し、人間が理解できる 3D 世界に配置するという形だ
もっと単純な例として、LLM を緑の草原と物体で表現し、人間だけが行為主体である空間を考えられる
サルの近くに立っていて、近くで噛んでいる口を見てそちらへ行くと、現在のプロンプトは “monkey chews” になる。近くにはバナナを指す矢印があり、さらに遠くにはリンゴ、地平線のはるか遠くにはタイヤを指す矢印がある。サルがタイヤを噛むことはまれだからだ
近いものはより可能性の高いトークンで、遠いものは可能性の低いトークンであり、丘の上にいるかのように一度に見渡せる。こういう形で、人間だけが行為主体である静的な場所型 AI を作れると思う
- 18歳のときにした Salvia の幻覚体験が、だいたいそんな感じだった
  自分の精神が無限に大きな百貨店に変わり、各通路が同時に進行する思考の枝で、各通路の上にある共通の材料リストには、その枝に関連する単語・感情・概念が埋まっていた
  館内放送システムが自分の内的独白に取って代わり、もはや内的独白はなかったが、自分の考えが他人の声のように外部から聞こえた
  その通路を歩きながら、脳がリアルタイムで作り出す巨大でフラクタル的な相互依存の同時思考網を、驚嘆しながら見ることができた
- まだ高次元空間を 4 次元の可視化にうまく対応付ける方法を見つけた人はいないように思う
  もしかすると、だからこそトークンと言語は人間にとってあれほど有用なのかもしれない。私たちが持つ最も近い類似物なのかもしれない
似ている、あるいは少なくとも一部重なる資料として、このテーマの最良の参考書とも言える Gareth James らの Introduction to Statistical Learning を思い出す
この資料のほうが少し取っつきやすいかもしれないが、後者は R/Python の例が役に立つのは確か
[1] https://www.statlearning.com/
- そこまでではない。ISLR はかなり基礎的な本で、この資料は点推定よりも 確率推定の伝播 のような、より高度な手法を扱っている
  正直、最近は ISLR はもう勧めていない。古すぎると思う
Kevin Murphy が自分の Probabilistic Machine Learning シリーズの名前を変えようと駆けつけてきそう
ノイズのある入力、ノイズのある処理、ノイズのある連鎖を区別するやり方が興味深い
存在論的な現実は状態の配列ではなく、潜在性の分布である
潜在性は存在し、確率はその分布を数学的に記述したものだ。すべての属性は次元、すなわちベクトルである。状態は解消の一時的な測定にすぎない
潜在性は強め合う干渉と打ち消し合う干渉を通じて相互作用し、強め合い・打ち消し合う干渉は「今」という瞬間的な測定において状態へと解消される。これは必然性が崩壊する命題である
存在論的な現実は状態の配列ではなく、潜在性が分布する過程である
Gemini 2.0 Experimental 02-05 はこの資料を「わずか」107K トークンとして見る
内容を分割して理解する助けが欲しいなら有用
https://aistudio.google.com
「ラプラス近似」は、複雑な確率分布を単純なガウス分布、つまり釣鐘型の曲線に置き換える、速くて粗い方法である
最も高い点である最頻値を見つけ、その点での曲率を合わせることで動作する
速くて簡単だが、実際の分布が釣鐘型でない場合は非常に不正確で、過信につながり得る
- これを対数領域で テイラー級数近似 の最初の2項だけを使い、残りを捨てる方法として見ることもできる
ETH Zurich でこの授業を受けたが、私のいちばん好きな授業の一つだった。特に 不確実性を定量化 する方法と、強化学習の出発点を築いていくやり方が良かった
データサイエンティストや機械学習エンジニアにとって優れた読み物だと思う。この文書はその講義ノートである

確率的人工知能技術

確率的AIが扱う中核的な問題

確率的機械学習

逐次的意思決定における不確実性の活用

読者対象と前提知識

学習構成

関連記事

1件のコメント

Hacker News のコメント