シンプソンのパラドックス
- シンプソンのパラドックスとは、確率・統計において複数のグループのデータでは傾向が見られる一方で、グループをまとめるとその傾向が消えたり逆転したりする現象。
- この結果は社会科学や医療統計でしばしば見られ、頻度データに不当に因果解釈を与えるときに特に問題となる。
- 統計モデリングにおいて交絡変数と因果関係を適切に扱えば、このパラドックスを解消できる。
例
UCバークレーの性別バイアス
- 1973年秋のUCバークレー大学院入学統計では、男性のほうが女性より入学可能性が高いことが示された。
- しかし、学科ごとの入学情報を考慮すると、女性はより競争の激しい学科に出願する傾向があり、男性は比較的競争の緩い学科に出願する傾向がある。
- 全体データを補正すると、「女性にわずかに有利な統計的に有意なバイアス」が現れる。
腎結石の治療
- 腎結石に対する2つの治療法の成功率を比較した実際の医学研究からの例。
- 小さい結石と大きい結石のどちらにおいても治療Aのほうが効果的だが、両方の大きさを合わせて考えると治療Bのほうがより効果的に見える。
- このパラドックスは、結石の大きさという隠れた変数が原因であり、この変数を考慮しないと発生する。
打率
- プロ野球選手の打率を比較する際に、シンプソンのパラドックスが起こりうる。
- ある選手が複数年にわたって別の選手より高い打率を持っていても、それらの年を合算するとより低い打率になることがある。
批判
- シンプソンのパラドックスは実際にはパラドックスではなく、変数間の因果関係を適切に考慮しないことで生じる問題だという批判がある。
- データを別の方法で分類したり、他の交絡変数を考慮したりすると、この現象は消えたり逆転したりしうる。
- シンプソンのパラドックスに注目しすぎると、統計分析で注意すべきより重要な問題から関心がそれる可能性があるという指摘もある。
GN⁺の見解
- シンプソンのパラドックスは、データ分析と統計的推論において重要な教訓を与える。データを解釈する際には単純な数値比較ではなく、変数間の関係と状況の文脈を理解することが重要であることを強調している。
- このパラドックスは、データサイエンティストや研究者がデータを分析する際、交絡変数を特定し、適切な統計手法を用いて因果関係を明確にすべきことを思い起こさせる。
- シンプソンのパラドックスは、データの誤解を防ぎ、より正確な結論を導くためのデータ分析手法の重要性を強調する事例として用いることができる。
- データサイエンス教育においてシンプソンのパラドックスは重要な教育ツールとして活用でき、複雑なデータセットを解釈する際に生じうる潜在的な誤りへの認識を高めるのに役立つ。
- このパラドックスの理解と解決に役立つ統計的方法論としては、多変量解析、ロジスティック回帰、因果推論モデルなどがあり、これらの方法はデータ分析者が実際の問題を解決するうえで不可欠である。
1件のコメント
Hacker Newsの意見
あるデータアナリストがEC企業 The Hut Group で勤務していた際、マーケティング費用が減少していると報告されたものの、実際にはほぼ2倍に増えていた事例を経験した。
数学者 Jordan Ellenberg は、シンプソンのパラドックスは実際には矛盾ではなく、データを見る2つの異なる観点に関するものだと主張している。
ある統計学の講師は、シンプソンのパラドックスを説明するために米国の住宅価格データを使用した。
バークソンのパラドックスについても認識しておくべきである。
シンプソンのパラドックスに関するWikiページの短いアニメーションは、理解を助ける良い例である。
シンプソンのパラドックスが因果推論への教訓を与えることを最近知った。
ロードのパラドックスはシンプソンのパラドックスと密接に関連しており、視覚的に理解しやすい。
シンプソンのパラドックスを、実際には『ザ・シンプソンズ』のエピソードの一場面に似たものだと誤解していたが、これは90年代後半のシンプソンズ脚本家による意図的な類似かもしれない。
UCバークレーの入学過程で性別バイアスがあるように見える事例を読み、女性と男性がそれぞれ競争の激しい学科とそうでない学科に出願する傾向があることを知った。
Wikiの可視化は非常に効果的で、別途説明がなくてもこのパラドックスを理解できる。