ベイズ統計: 3つの文化

(statmodeling.stat.columbia.edu)

1 ポイント投稿者 GN⁺ 2024-07-28 | 1件のコメント | WhatsAppで共有

ベイズ統計をめぐる論争は、単に事前分布ひとつの問題ではなく、主観的・客観的・実用的 Bayes がモデルと検討プロセスをどう捉えるかの違いへとつながる
主観的 Bayes は、データ生成分布を仮定したうえで、パラメータに対する 事前の信念 を事前分布にエンコードし、事後推論へ進む伝統的な方法である
客観的 Bayes は、推論は 仮定したモデル とデータのみに依存すべきであり、事前分布は情報理論的な意味で最も情報量が少ないものであるべきだとみなす
実用的 Bayes は、観測量・非観測量全体の 同時確率モデル を構築し、データで条件付けしたあと、モデル適合と結論を検討し、必要であれば反復する
この反復プロセスは、工学における 反復設計 や機械学習の一般的な作業方法に近く、ベイズ分析を固定的な哲学というより実際のモデリング workflow として見る立場につながる

3つの Bayes 文化の区別

主観的 Bayes は、データ生成分布、すなわちパラメータの関数として見た尤度 (likelihood) をまず仮定する
その仮定のもとで、パラメータに関する既存の信念を 事前分布 として表現する
その後に事後推論を行い、基本的には振り返らないやり方に近い
この哲学を厳格に実践した人が実際にいたのか、また今日自らを主観的 Bayesian と名乗る人がいるのかは定かではない

客観的 Bayes の動機と reference prior

客観的 Bayes は、仮説検定、特に Bayes factor を使いたいという欲求と “Bayesian cringe” が結び付いて生まれた哲学と見ることができる
Berger, Bernardo, Sun の 2009 年の reference prior 論文では、reference analysis が客観的 Bayesian 推論を作るものだと説明している
- 推論命題は 仮定したモデル と利用可能なデータのみに依存する
- 使用される事前分布は、ある情報理論的な意味で 最も情報量が少ない ものでなければならない
この流れは、現在もカンファレンスや “objective Bayes” と題された書籍を通じて続いている
BUGS の例で使われた幅広い gamma(epsilon, epsilon) および normal(0, 10_000) の事前分布にも、ある程度この流れの影響がある

実用的 Bayes と BDA の3段階

Andrew Gelman のアプローチは 実用的 Bayes と呼べる
Gelman, Carlin, Stern, Rubin による Bayesian Data Analysis 初版は、Bayesian データ分析のプロセスを3段階に理想化している
- 観測量と非観測量全体についての 完全な確率モデル、すなわち同時確率分布を設定する
- 観測データに条件付けして、関心のある非観測量の事後分布を計算し解釈する
- モデル適合、事後分布が含意する結論の妥当性、モデリング仮定に対する感度を評価する
問題があればモデルを変更または拡張し、同じ3段階を繰り返す
ここでの確率モデルは、事前分布と尤度の両方を含む 同時モデル である
入力は “belief” より “knowledge” として表現される
モデルがデータにどの程度適合しているかや予測結果を評価し、問題があれば再試行するこのプロセスは、のちに “workflow” と呼ばれるようになった

工学と機械学習でなじみ深い反復設計

このやり方は、工学で 反復設計 (iterative design) と呼ばれる標準的な運用手順と同じである
ほとんどすべての機械学習もこのような形で行われている
コンピュータサイエンスや機械学習の背景から見ると、統計学者が常にこのように考えてきたわけではないという点は驚きである

BDA の戦略と哲学論争の回避

Andrew Gelman は BDA 初版を書く際、哲学を長々と論じるより、科学を実際に「行う」ことを選んだ
Gelman と Rubin は、自分たちの反復設計プロセスに別個の名前を与えなかった
他人の哲学的信念を正確に規定するのは難しく、論争でそれを変えるのはさらに難しいため、この選択は賢明に見える
“show, don’t tell” に近く、哲学論争より 実際のモデリング と科学の実践によって方法論を示すアプローチである

事前分布と尤度は一緒に扱うべき

議論の一部は事前分布に関するものだが、事前分布の選択は尤度の選択より主観的でも客観的でもない
Andrew Gelman の記事 “Straining on the gnat of the prior distribution while swallowing the camel that is the likelihood” がこの見方を要約している
哲学的には、事前分布と尤度は “belief” より knowledge という認識論的な表現で扱うほうが好ましい
このフレーミングは Laplace が最初に提示し、John Stuart Mill がさらに深く掘り下げ、Gelman らも BDA でこれに従っている

タイトルの系譜と Breiman の2つの文化

1959 年に C.P. Snow は、芸術と科学の対比を扱った “The two cultures” を書いた
2001 年に L. Breiman は、影響力のある論文 “Statistical modeling: the two cultures” を書いた
Breiman の対比は、生成過程を明示的にモデル化する方法と、機械学習の用語で 高容量モデル に相当する非常に柔軟なモデルを使う方法の違いに関するものだった
Breiman は自身の研究で decision forests を支持しており、最新のニューラルネットワークに適合させるのに十分なデータがない Kaggle コンペティションでは、このアプローチが今でも勝つことがある
記事は、decision forests と neural networks が Andrew の言う “unfolding flower” の事例に当たるのかという問いで締めくくられている

1件のコメント

GN⁺ 2024-07-28

Hacker News のコメント

著者はベイズ主義を2つの軸で分けているように見える：(1) 世界についての知識や信念に基づいて事前分布をどれだけ情報的に設定するか、(2) 適合度や出力の妥当性・有用性を見て、モデルの関数形を反復的に修正するかどうか、である。
この組み合わせのうち3つを、情報的+反復=実用的、情報的+非反復=主観的、非情報的+非反復=客観的と呼んでいるが、肝心の非情報的+反復のマスが空いているのがいちばん納得しづらい。
産業界で自分をベイズ主義者と呼ぶ人の大半は、このマスに入ると思う。モデルの関数形、つまり仮定したデータ生成過程を反復的に改善するのは当然よいことであり必要でもあるし、データが事前分布を圧倒するほど大きい場合が多いので、事前分布はたいてい非情報的か弱情報的である。
そのため非反復の列全体が藁人形のように感じられるのだが、著者は自分もそう信じていたものの「統計学者たちがそう考えていないと知って衝撃を受けた」と明記している。
- 非反復は実際に存在するし、必ずしも悪い理由だけによるものでもない。モデルを反復的に改善するのは、何らかの基準に照らしてより良くするためだが、科学研究では有意性基準と陽性結果をめぐる歪んだインセンティブが強く働く。
  「分かれ道の庭」のように、データに応じて分析が変わる状況は、今日の科学における統計的・認識論的危機の直接的な原因にも見える。反復そのものが悪いわけではないが、最適化している目的関数が、科学的に望ましいものと異なる場合が多い。
  実際の科学研究者にとっては、モデルを反復的に調整することがどこか不誠実な行為のように感じられることがあり、多くの分野が収束してしまった欠陥のある認識論、つまり p<0.05なら真、そうでなければ偽 という枠組みとも深く関係しているように見える。
  別の言い方をすれば、分析者が制御する自由度の数こそが不快感の核心なのかもしれない。ベイズの文脈で、信念や過去データに基づいて事前分布を選ぶと、結果がどう出るかについて分析者が非常に大きな制御権を持つことになる。
  そのため多くの分野は、よい統計モデルを作るよりも「標準的な」検定の集合へと傾いたのだと思う。こうした検定は、調整用のつまみの大半を分析者の手から取り上げ、概してより保守的に機能する。
- ベイズ方面に詳しいわけではないが、ベイズノンパラメトリック手法は「非情報的 + 反復」のアプローチに入るのか気になる。
  まったく見当違いの方向を見ている気もするが、どこで考え方や理解がずれているのか分からない。
- 興味深いことに、私の経験では現代の機械学習はほぼすべて実用的ベイズ主義で動いている。ELBOを求め、問題領域を最もうまくモデル化する最新の潜在変数の流行を選び、今ならたいていTransformerを使って実験を回し始める。
大学時代、教授たちがベイズ主義対頻度主義について延々と議論していた頃が懐かしい。
この記事は非常に簡潔でありながら、ベイズ派の教授同士でも研究や分析のアプローチがなぜ違っていたのかを説明してくれる。第三の陣営である実用的ベイズ主義は知らなかったが、事前分布と結合確率密度関数を正しく合わせるために、確率的なフィッティングと多くの反復を非常に徹底していたある教授の研究とは確かに重なる。
Andrew Gelmanの「Andrew Gelman - Bayes, statistics, and reproducibility (Rutgers, Foundations of Probability)」という講演も、データサイエンティストに強くおすすめする。
- 講演リンク: https://youtu.be/xgUBdi2wcDI
- 頻度主義対ベイズ主義の論争について少し挑発的に言えば、この3つの文化はこう見える。
  主観的ベイズ主義は頻度主義の学界が攻撃しやすい藁人形であり、客観的ベイズ主義は多くのベイズ派研究者が抱く素朴な自己像であり、実用的ベイズ主義は統計を実際に何かへ適用する実務家、Gelman流に言えば科学をする人々が取るアプローチである。
- 最近では**信頼統計学（Fiducial Statistics）**も第三の陣営として聞いたことがある。Harvard Business Reviewの編集長が出ていたSuper Data Scienceポッドキャスト第581回はなかなか興味深かった。
- 私の出身国では頻度主義的アプローチが概ね支配的だが、ベイズ主義との争いは実質的にないので、いつも不思議に思う。単なる数学理論とツールの束にすぎず、役に立つものを使えばよい。
  アメリカ人が頻度主義の観点を嫌いがちなのは、より強い数学的背景を要求されるからだと、今でも思っている。
自分がどの「クラブ」に属するのか、どちらの「側」なのかを決めなければならないという雰囲気が、ずっと嫌いだった。今日の科学に見られる問題を、どの推論哲学を採用するかに還元できるという考えにも好感が持てない。
いろいろな面で私は情報理論的な方向に近く、あえて言えば客観的ベイズ主義かもしれないが、実際には頻度主義者でもベイズ主義者でもない。
この「3つの文化」という区分は、少し手品のように見える。「実用的」文化は主観的・客観的ベイズ主義と排他的ではないので、事前分布をどう指定し、どう解釈すべきかについてはあまり語っていない。
Gelmanなら、よりよい用語は「柔軟性」のようなものだと言うかもしれないが、そうすると、いつ客観的に行き、いつ主観的に行くのか、そしてなぜそうするのかが残る。それを形式化するほうが、煙幕のように残しておくよりよさそうに見える。
また悪魔の代弁者として言えば、「実用的」文化は、なぜベイズ主義が疑わしく見えるのかも示している。「事前分布を選び」、「どれだけよく合うかを見て」、「反復する」という流れは、モデルの微調整やpハッキングのように見えかねない。
意図がそうでないことは分かっているし、微調整なしにモデリングはできないことも分かっているが、そのようにアプローチすると、事前分布は結果を少し押して釣り上げるための、もう一つの自由度のように見える。
ベイズ推論の論文を書いたことも編集したこともあるが、問題が堅牢な理論にあったことはない。問題は、人々が実際にそれをどう使い、どう濫用するかにある。
現代の頻度主義的方法についてきちんとした視点を得たいなら、Yudi Pawitawn の “In All Likelihood” をおすすめする。
序盤の章では、頻度主義とベイズ派のパラダイムの違い、とりわけよく設計された頻度主義モデル、あるいは尤度ベースのモデルの力をかなり流麗に説明している。
いくつかの例外を除けば、ベイズ派が実際に非情報的事前分布を使うなら、同じ分析者がベイズモデルを使っても頻度主義モデルを使っても同じ答えが得られるはずだ。私が仕事をしている分野では、ベイズ的方法を使う研究者の99%が非情報的事前分布を使っているとも言われていて、単に格好よく見せたり査読を通りやすくしたりするためにベイズを使っているだけではないかと思うことがある。
複雑なモデル、たとえばパラメータが数百・数千個あるモデルでは、特定のデータセットの文脈で事前分布が本当に非情報的かどうかを知るのは極めて難しい場合がある。モデルの実行を待たなければならず、事前分布を体系的に変えると、高性能計算資源を使っても膨大な時間がかかる。
またベイズ環境では、頻度主義なら正定値でないヘッセ行列で破綻し、「モデルがおそらくでたらめか、データセットに対して複雑すぎる」という診断を与えたであろうモデルを、1つまたは複数の事前分布で偶然つなぎ止めてしまいやすい。
こうした複雑さのモデルを笑い飛ばすこともできるが、多くの応用環境ではこれが現実だ。たとえば「大きな n」問題に直面する時空間モデルや、資源状態と持続可能性に関する情報を提供する統合的な漁業評価モデルがそうである。
そのため、大学院レベルのベイズ推論を教える立場ではあるが、ベイズ統計に対する主な不満は、非統計学者や初心者があまりに簡単に誤用できてしまうことだ。特に、生物学者のような非統計学者にも非常に柔軟なソフトウェアが開かれている現在ではなおさらである。
全体としては、どちらのパラダイムも主観的であり、最後まで亀、つまり主観性が下にあるという Gelman の主張は正確で、大いに共感する。
- “In All Likelihood” の推薦には同意するが、その本は主観的確率にも客観的確率にも依拠しない第三のアプローチを説明している、という点も述べておく必要がある。
- 非統計学者や初心者がベイズ統計を簡単に誤用できることが問題なら、頻度主義統計はそうではないのだろうか？ :-)
私の考えでは、確率はきちんと定義されておらず、反証不可能な概念です。それでも経験的には、世界のいくつかの側面をかなりうまくモデル化しているように見えます。ただ、私たちを誤った方向に導いている可能性もあるのではないでしょうか？
p(X)=0.5、つまり事象 X の確率が 0.5 であるという文は、実際には何を意味するのでしょうか。命題なのでしょうか。そうだとすれば反証可能なのでしょうか、どのように可能なのでしょうか。
命題でないなら、何を意味するのでしょうか。理論的によりしっかりした人に説明してもらえるとありがたいです。言いたいことはもっとありますが、まず厳密な背景を持つ人たちの答えを聞きたいです
- 数学理論としての確率は、きちんと定義されています。確率は、より大きな主題である測度論の応用であり、測度論は微積分の理論的基礎も提供します
  すべての確率は三つのものによって定義されます。集合、その集合の部分集合たちからなる集合、簡単に言えば物事をまとめる方法、そしてそれらの部分集合を 0 から 1 の間の数へ送る関数です。有効であるためには、事象とも呼ばれる部分集合たちの集合が追加の規則を満たす必要があります
  p(X)=0.5 という例は、ある関数が X と呼ばれるある部分集合に 0.5 という値を割り当てる、というだけの話です
  これが現実世界のモデル化に向いているように見える理由は、この理論の起源にあります。無から生まれたものではなく、現実世界のランダムに見える出来事を形式化したくて作られたものなのです
- 個人的には、確率がよく定義され、検証可能な概念であるのは、特定の正確な対称性から論証できる状況だけだ、という結論に至りました
  コイン投げ、偶然ゲーム、統計物理の多くの問題がこれに当たります。一方で、現実世界の推論、予測、推定では確率は主観的であり、統計学者たち、ベイズ派を含めて、考えているよりはるかに定量化しにくいものです
  確率が私たちを誤った方向に導きうるかといえば、そうだと思います。統計的仮説検定を主要な経験的方法として頼るすべての科学は、基本的には巨大なごみの山に近く、再現性の危機は氷山の一角にすぎない、という感覚がますます強くなっています。経済学、社会心理学、医学の大きな部分、データサイエンスなどが含まれます
  p(X)=0.5 のような文は、ほとんどの場合反証不可能な命題だと思います。コイン投げのように安価に多くの実験ができる場合でも、100万回回してようやく、計算された確率を約 1% の精度で「確認」するだけです。精密科学の基準からすればひどいもので、仮定がより弱かったり、標本空間がより複雑だったり、再現コストが高くなったりすれば、さらに悪くなります
- 確率は一つの概念ではなく、関連する概念のファミリーです。主観的ベイズ主義における認識論的確率は頻度主義の確率とは別の概念であり、もちろんある面では関連しています
  互いに両立しない定義を一緒くたにすれば、「定義が不明確で反証不可能な概念」のように見えるのは驚くことではありません
  主観的ベイズ主義の観点では、p(X) は、ある命題が真であることについて私または特定の誰かが持つ確信の度合い、それに賛成・反対する証拠の重みに関する判断、あるいは真偽についての私の知識の程度を測る値です
  0.5 は、どちらにも確信がなく、どちらにも証拠がないか、両側の証拠が完全に相殺されており、その命題が真かどうかについての知識がまったくない、という意味です
  これは「教皇は神が存在すると信じている」が命題であるのと同じ意味で命題です。神が実際に存在するかどうかに関係なく、教皇がそう信じているというのは非常にもっともらしく真です
  したがって、私の信念についての主張は私の内省によって容易に反証可能であり、他人の信念についての主張も、その人に尋ねることができ、その人が進んで答え、嘘をつく理由がないと見なせるなら反証可能です
- p(X=x)=a のような特定の主張は、一般には反証できないという点はその通りです。しかし、関数 p 全体同士は比較でき、どちらがデータによく合っているかを言うことはできます
  たとえば Nate Silver と Andrew Gelman が、11月の選挙のすべてのレース結果についてそれぞれ確率を発表するとしましょう。選挙結果が出たあと、個々の確率が当たったか外れたかは言えませんが、誰の方が正確だったかは言えます
- コイン投げ 1000 回の結果が 99% 表、1% 裏で、すべての投げで同じ過程が使われたと確信しており、裏に 50% の配当で賭ける機会があるなら賭けますか？
  これは P(X)=0.5 を拒否する実用的な答えです。そしてこの実用的な判断を何らかの理論で理解しようとすることができます。付け加えると、ちょうど 0.5 というのはほとんどありえないので、(0.49, 0.51) のような区間かどうかを確認する方が筋が通っています
  中心極限定理は、独立試行を行えば X の確率を得ることができ、極限では X が起こる平均回数が p(X) に近づく、と述べています
  しかし「極限」は無限に多くの試行を意味するため、どんな初期列もその極限を決定しません。大きな N を基準として選び、平均を取る必要があります
  ところで、これは確率だけに固有のことなのでしょうか。「G の位置に木がある」のような世界についての文があり、その文を確認する手続き、たとえば「G に行って木を探してみる」があるとして、その手続きが文の真偽を必ず判定すると言えるでしょうか。常に障害物、たとえば「木のように見える幻影」などがあります。そうした障害物をすべて排除するには、理想化された観察過程を仮定する必要があります
  確率の検証で働いている理想化は、無限の独立観察であり、これが p(X) を与えます
  頻度主義を擁護しようとしているわけではなく、観察過程の理想が必要だという点が圧倒的な障害物と見なされるべきではない、という意味です。もちろん量子力学における位置・運動量の同時観察のように原理的な障害があるなら、確率概念を放棄することもありえます
Breiman の論争的な文章は、生成的方法対判別的方法に関するものだったことを覚えておくべきです。つまり、分析をデータ生成がどのようにモデル化できるかから始めるのではなく、予測から始めるべきだという話でした
その流れから、ブースティング木、バギング、ランダムフォレスト、XGBoost のような非生成的なブラックボックス手法が出てきました
今日でも、古典的な機械学習ツールの大半は生成的ではありません
ベイズ統計の良いところは、主観的である点にあります。必ずしも主観主義の学派に属する必要もなく、自分の主観的判断に従って解釈を選べます
私はこれがベイズ主義の強みだと思います。どんな統計作業にも、個々の人間の主観的判断が染み込んでいます。この変わらない事実を避けない方が、むしろより客観的です
- 各アプローチが適切かどうかは、何をモデル化するのか、そしてそれに伴う誤りの結果に大きく左右されます
ベイズハッキング: 自分の研究に最も大きな有意性を与える反復を見つけること
ディープラーニングはどこに入るのか？
- 著者が言及している実務家たちが共有する暗黙の信念とは、何らかの基底にある「データ生成過程」に対応するモデルを作ろうとしている、ということです
  機械学習の実務家はベイズ統計学者と似たモデル、場合によっては同じモデルを使うこともありますが、データがなぜそのような値を持つのかについての直感よりも、予測性能を中心に、あるいはもっぱらそれだけでモデルを評価する傾向があります
  この文章のタイトルが参照している Breiman の古典的論文 “Two Cultures” を見るとよいでしょう: https://projecteuclid.org/journals/statistical-science/volum...
- ほとんどのモデルは、古典的確率論、頻度主義・ベイズ統計、そして多くの計算機科学の基礎が混ざった機械学習の原理から派生しています
  それでもベイズ推論やベイズ深層学習でも進展はあるので、PyTorch 上に作られた Pyro のようなフレームワークの取り組みを見るとよいでしょう
- 高いレベルで見れば、ベイズ統計とディープラーニングはモデルのパラメータ適合という同じ目的を共有しています
  特に変分推論は、このような問題を計算可能にするための手法群です。変分オートエンコーダから時系列の状態空間モデリング、強化学習まで、さまざまなところに登場します
  もっと学びたいなら、Murphy の機械学習教科書をおすすめします: https://probml.github.io/pml-book/book2.html
- 深いニューラルネットワークは非常に複雑なデータモデルにすぎず、そのパラメータ推定と新しいデータの予測をどう扱うかが、ベイズ的か頻度主義的かを決めます
  ベイズ派はパラメータに分布を与えたうえでデータで条件付けし、事後分布を得て、それに基づいて新しいデータに対する事後予測分布を得ます
  一方、頻度主義者はパラメータを固定された量と見なし、尤度だけで推定します。たとえば最尤法を使い、正則化のような小技を使うこともありますが、こうしたものにもベイズ的解釈を与えることができます
- https://en.wikipedia.org/wiki/Statistical_learning_theory

ベイズ統計: 3つの文化

3つの Bayes 文化の区別

客観的 Bayes の動機と reference prior

実用的 Bayes と BDA の3段階

工学と機械学習でなじみ深い反復設計

BDA の戦略と哲学論争の回避

事前分布と尤度は一緒に扱うべき

タイトルの系譜と Breiman の2つの文化

関連記事

1件のコメント

Hacker News のコメント