ダニング＝クルーガー効果は自己相関である

(economicsfromthetopdown.com)

1 ポイント投稿者 GN⁺ 2023-11-26 | 1件のコメント | WhatsAppで共有

「未熟な人が自分の能力を過大評価する」という有名なパターンは、人間心理の安定した特徴というより、試験点数と自己評価誤差を同じ軸に混ぜた統計的産物である可能性がある
核心は 自己相関 で、試験点数 x と自己評価 y の差である y−x を再び x と比較すると、x が式の両側に入るため、無作為データでも同じ形が生じる
Dunning と Kruger の 1999 年のチャートは、参加者を試験点数の 四分位数 で分け、実際の点数と知覚された能力のパーセンタイル平均を比較することで、2 本の線の差を心理効果のように見せている
無作為に作った「試験点数」と「自己評価」でも同じ方法で処理すると、低成績者は過信し高成績者は謙虚に見える ダニング＝クルーガー型の曲線 を作ることができる
Nuhfer らの 2016 年・2017 年の批判と Gignac・Zajenkowski の 2020 年の批判は同じ問題を指摘したが、3 本の批判論文の Google Scholar での被引用数 88 回は、原論文の 7,893 回よりはるかに少ない

ダニング＝クルーガー効果を統計的に見直す

ダニング＝クルーガー効果は、1999 年の Justin Kruger と David Dunning の研究で知られ、能力の低い人が自分の能力を過大評価する傾向を指す
この批判の焦点は、その効果が心理現象というより 自己相関（autocorrelation） のためにデータ上で繰り返し現れているという点にある
自己相関とは、ある変数をそれ自身と相関させる状況である
- 純粋な形では「5 = 5」のように明白な循環である
- しかし同じ変数が式の両側に混ざると、簡単には見抜けない
たとえば互いに無関係な x と y があるとき、z = x + y を作って z と x を相関させると、x が両側に入るため 相関が生じたように見える

元のダニング＝クルーガー図の構造

Dunning と Kruger は、参加者に 技能テスト を受けさせた後、各自に自分の能力を評価させた
図の横軸は、試験点数に応じて人を 4 つの 四分位（quartile） グループに分けたカテゴリ軸である
- 見かけ上はカテゴリ軸だが、実際には試験点数 x の順位を表している
縦軸は、実際の点数と知覚された能力を パーセンタイル（percentile） で示す
灰色の線は、各四分位グループの実際の試験点数の平均パーセンタイルを示す
- 実質的には x を x に対して描いたものに等しい
黒い線は、各グループの自己評価平均パーセンタイルを示す
- 自己評価 y を試験点数 x に対して描く構造である

2 本の線の差が生む自己相関

ダニング＝クルーガー図で目立つのは、「知覚された能力」と「実際の試験点数」の差である
数学的にはこの差は y−x である
- y は自己評価
- x は実際の試験点数
この差を横軸 x に対して解釈すると、関係は (y−x) ~ x になる
このとき x が式の両側に入るため、x が自分自身の負の形と比較される 自己相関 が発生する
したがって x と y に心理的意味がまったくない無作為な数字を入れても、同じ構造の図ではダニング＝クルーガー効果のように見えるパターンが現れうる

無作為データでも同じパターンを作る

仮想的な再現実験で 1,000 人を募集し、試験点数と自己評価を得たと仮定する
個人ごとの試験点数と自己評価をそのまま散布図にすると、完全に無作為に見え、ダニング＝クルーガー効果の痕跡はない
その後、自己評価誤差を計算する
- 自己評価誤差 = 自己評価 − 試験点数
この誤差を試験点数と比較すると、強い関係が現れる
- 低成績者は大きく過信しているように見える
- 高成績者は過度に謙虚なように見える
同じデータをダニング＝クルーガー型の図に入れると、元の結果よりさらに大きな効果のように見える曲線も作ることができる
しかしこのデータが実際の実験値ではなく 無作為な数字 なら、現れたパターンは心理効果ではなく統計的構造の産物である

Nuhfer らによる代替的検証

統計的に妥当な形で 2 つのデータ集合を相関させるには、2 つの測定値が 独立に測定 されていなければならない
ダニング＝クルーガー図は、試験点数を両軸に混ぜ込むことでこの原則に反している
Edward Nuhfer と同僚たちは、「技能」を試験成績や自己評価とは独立した方法で測定したとき、効果がどう変わるかを確認した
Nuhfer の分析では、横軸に 教育水準 を置き、縦軸に自己評価誤差を置く
- 各点は個人を表す
- 平均自己評価誤差は緑色のバブルで示される
ダニング＝クルーガー効果が存在するなら、教育水準が高くなるほど自己評価誤差が減少する下降傾向が見えるはずである
その結果では、そのような傾向は見られず、平均評価誤差はほぼ 0 付近にとどまる
ただし教育水準が高いほど、自己評価誤差の分散は小さくなる傾向がある
- 教授は新入生よりも自分の能力をより正確に評価する傾向がある
- これは平均的な過信バイアスを指すダニング＝クルーガー効果とは別の現象である

パーセンタイル変換が加えるバイアス

パーセンタイル変換は、自己相関に加えて別のバイアスも生む
パーセンタイルには 0 と 100 という床と天井がある
- 床に近い人は、自分の順位をそれ以上低く過小評価しにくい
- 天井に近い人は、自分の順位をそれ以上高く過大評価しにくい
この構造のため、低成績者は過信しているように、高成績者は謙虚なように見えやすい
また、試験点数パーセンタイルと試験点数四分位を比較する線は、各四分位が定義上 25 個のパーセンタイルを含むため、実際の試験点数について追加情報をほとんど与えない

批判が広く浸透しなかった理由

Dunning と Kruger の原論文は 1999 年に発表された
この分析上の欠陥は、2016 年になってようやく十分に理解されたものとして整理された
Edward Nuhfer と同僚たちの批判論文は 2016 年と 2017 年に出され、Gilles Gignac と Marcin Zajenkowski も 2020 年に類似の批判を発表した
Google Scholar ベースで 3 本の批判論文の総被引用数は 88 回であり、Dunning と Kruger の 1999 年論文は 7,893 回引用されている
誤った分析への反論は原論文より知られにくく、原論文が掲載されたジャーナルより目立たない場所に載ることも多い
有名なダニング＝クルーガー図は、「未熟で、それに気づいていない人々」よりも、自己相関を心理効果として解釈した分析上の誤り を示す事例に近い

1件のコメント

GN⁺ 2023-11-26

Hacker Newsの意見

この解釈には納得しにくく、こちらの反論のほうがうまく説明している: https://andersource.dev/2022/04/19/dk-autocorrelation.html
要点は、この自己相関による解釈が「成績と成績評価がランダムかつ独立なら、D-Kグラフのような形になる」と示したうえで、だからその効果は単なる自己相関だと言っている点
しかし実際には、成績と自己評価が独立だと期待するほうがよほど不自然。人は自分の能力をある程度正確に評価できるはずだと期待されるし、D-Kも両者の相関を示したが、期待ほど強くなかっただけ。興味深い結果は一貫したバイアスであり、その原因仮説は議論可能だが、変数が独立だと期待されていないという事実を無視してはいけない
- サンプルサイズが統計的に十分だと考えるなら、元論文は明らかに2つのことを示している
  平均すると、人々は自分の能力をランダムシミュレーションの50パーセンタイルではなく、実際の結果基準で65パーセンタイルあたりと推定しており、自己評価は実際の能力とともに上がるが、驚くほどわずかにしか上がらない。著者の「自己相関」についての議論は本質と無関係な論点ずらしであり、ランダム生成の結果は元論文の結果と一致しない。もちろん再現性がどれほど堅固かは別問題だが、可視化の方法自体に問題があるわけではなく、分散を示すバーがあればなおよかっただろう
- 本来の形のD-K効果と大衆文化におけるD-K効果の違いこそ、最大のリアルタイムD-K事例のように思える
  元の結果で興味深いのは、実際の成績と認知された成績の相関が直感より低いという点。ところが大衆文化の中でD-K効果が広まるにつれ、集団的な直感も変わり、今ではインターネット上の任意の人に本来のD-K効果を説明すると、「相関が思ったより大きい」と興味を持つかもしれない。その人は相関が負だと思っていたはずだから
- その通り。なので整理すると、データが本当にランダムで相関がないなら、線は中央で平坦になるはずで、第1四分位も50%、第4四分位も50%であるべき
  データが100%正確で精密なら[1]、線は対角線になり、第1四分位は12.5%、第4四分位は87.5%あたりになるはず。データが正確だが精密でないなら、ランダム性が大きくなるほど、その対角線は中央の平坦な線へと変わり、50%で交差するはず。ところが実際に見えるのはそのどちらでもなく、第1四分位がおよそ60%、第4四分位が75%。これは自己評価能力がある程度あるが、ずれていることを示している。上位四分位は上側で切られる効果のために過小評価のように見える可能性があるが、下位四分位の過大評価は避けがたい
  [1] https://en.wikipedia.org/wiki/Accuracy_and_precision
- 著者は結論を仮定してから、データをどう分析するかを決めている
  一方では「人々が自分の成績を評価できると仮定するほうがはるかに合理的」と言いながら、他方では「熟練度が高いほど自分の成績をよりよく評価するという主張には反対しない」と言うのでは、信頼を保つのは難しい。核心となる変数を固定されたもののように扱いながら、同じデータセット内でその変数が変化すると認めているわけで、自己一貫性に欠けている
- 元のD-K論文[1]で、この合理的な反論を揺さぶる興味深い点を2つ見た
  誰もがD-Kと結びつける滑らかな線形グラフは4つのうちの1つにすぎず、残り3つはずっと雑然としており、論文も相関が弱い、あるいはまったくないケースを扱っている。さらに、その完璧に見えるグラフはユーモアのセンスを測ったものだった。ユーモアは自己評価と専門家評価、ここではプロのコメディアンによる評価との間に、ほぼ完全なノイズを生み出す可能性が高い。全員が実質的に自分の成績をランダムに当てているなら、上位者は過小評価し、下位者は過大評価するという強いD-K型が常に現れる。知能を最も単純かつ直接的に測ろうとした実験はLSAT論理問題に基づく2番目の実験だが、結果のグラフは非常にでこぼこしている。論文も「参加者は正答数を過大評価しておらず、能力の認識は実際の能力と正の関係にあったが、有意ではなかった」と書いている。これはまた別のZimbardoのように見える
  [1] - https://sci-hub.se/10.1037/0022-3514.77.6.1121
著者たちは「X - Y 対 X」を行っているが、より大きな問題は、0から1に変換され境界のある2つの測定値を引き算している点である
境界の極端なところでは、上位の成績者は自分の成果をどれだけ過大評価できるだろうか。すでにほぼ1なので、あまりできない。生の値では過大評価と過小評価が同じ頻度・大きさで起きていたとしても、変換後の値の天井効果のために、グラフ上では上位の成績者がより頻繁に過小評価しているように見える。最下位の成績者には逆の問題が生じる。“Random Number Simulations Reveal How Random Noise Affects the Measurements and Graphical Portrayals of Self-Assessed Competency.” Numeracy 9, Iss. 1 (2016) の図7、8、9を見るとよい
- まさにそう思った。平均への回帰だけでないとしても、D-K効果以外の結果が出るのは難しそうに見える
  最下位四分位は、自分が最下位四分位より低いとは言えないので、どんな誤差も「過信」として扱われる。最上位四分位は、最上位四分位より高いとは言えないので、どんな誤差も「過小確信」として扱われる
- あらゆる熟練度の人が自分の能力をかなりうまく測れているなら、2本の曲線はおおむね重なるはずだが、実際には提示されたグラフのようになる
  ランダムノイズがY軸の平均曲線を作り得るという事実は、D-Kが存在しないという意味ではない。単に、D-Kにおける平均的な自己分析が中程度のランダム平均に似ているという意味で、考えてみれば筋が通っている。大半の人は実際の実力に関係なく自分を平均と評価しがちなので、D-Kは依然として妥当に見える
- 極端な部分を切り落とせば、ある程度対処できる。リンク先の記事のグラフでも、中央の四分位だけを見ても同じ傾向が見える
- 対数正規性は社会科学者の方法論にとって致命的になり得る
  基底にあるメカニズムを仮定するなら、試験に参加する人々の生の能力は対数正規分布かもしれない。試験参加そのものが暗黙のIQ下限を伴い、スポーツのような高成果領域には長い裾もあるからだ。試験は成果を測ろうとするが、それを正規分布や4つのカテゴリに縮約し、人々は課題と採点経験に基づいて自分の能力を推定するが、これもまた正規分布や定数分布に還元される。次元削減が暗黙的・明示的に3か所で起きているわけで、この玉ねぎをむかなければならない研究者たちをうらやましいとは思わない。それでも、アクセシブルに設計された実験でこうした問題が解きほぐされていく過程は、理解をより良くしてくれる
- データの境界性もここでの核心的な論拠である: https://www.frontiersin.org/articles/10.3389/fpsyg.2022.8401...
記事のコメント欄での Nicolas Boneel と著者の議論が興味深く、読んでいて抱いた疑念を Nicolas がうまく表現している
D-K効果の核心は、人々が自分の実力を推定するのが下手だということなので、実力水準をランダムに推定すると仮定すれば、当然結果は再現される。D-Kが存在しない世界の正しいモデルは、おおよそ 推定試験点数 = 実際の試験点数 + ノイズ であるべきで、そのとき期待される偽のD-Kは、最低・最高点の境界によって生じる程度にすぎない。この効果はノイズ分散に比例するはずだが、追加データセットの分散は観察された効果を十分に説明するには低く見える。またこのモデルでは、平均的には全員が自分が分布のどちらの半分に属するかは当てられるはずだが、最下位四分位でさえ自分の能力を50パーセンタイル以上と推定しているように見える
- 正しいモデルはおそらく 推定試験点数 + 推定ノイズ = 実際の試験点数 + 試験ノイズ だろう
  試験には当て推量のようなランダム要素があり、これは人が推定できない
  https://en.m.wikipedia.org/wiki/Regression_dilution
  https://en.m.wikipedia.org/wiki/Errors-in-variables_models
- データがランダムに見えるからといって、原因に到達したことにはならない
  それらのチャートは全体的に低い実力を示しているのかもしれないし、下位では推定能力が不足していて、中位で改善し、上位では高い実力と学習された謙虚さが混ざる、といったより微妙な構造なのかもしれない
- 適用するノイズによって変わる。全員に -10% から +100% のノイズが乗ると、Dunning-Kruger が得たグラフとおおよそ似たものになる
  だから、最高実力者が自分の能力をよりうまく推定していると信じる理由はなく、単に自分の順位を最高よりさらに高く推定することはできないという制約があるだけである
非標準的な用語に注意: 著者は自己相関を、私が一度も見たことのない形で使っている
通常、自己相関は時系列がある時間だけシフトした自分自身と持つ相関を指す。原文のように使うと、統計を知っている人を混乱させるし、その逆も同様である
- 好意的に言えば非標準的な用語で、より正確には自己相関の核心を損なっている。時間的関係である点を明確に述べていないからだ
  記事は「自己相関は変数をそれ自身と相関させるときに発生する」としているが、標準的な定義は「同じ変数群が連続する2つの時間区間の間で持つ相関の程度」に近く、時系列で遅延した値が元の値とどう関係するかを測る概念で、系列相関とも呼ばれる
- 自己相関を最もよく目にするのは時系列だが、その文脈でも著者の言い方が完全に間違っているわけではない
  時系列の自己相関は、同じ時系列関数を異なる時点で関連づけるものだ。最も単純には X[i] = f(t[i]) である配列 X を X と比較してプロットでき、さらに移動平均のような変換 g(X) 対 X にして複雑にすることもできる
- 著者が指しているものを説明するには、どの用語が適切なのか気になる
著者が描写した、人々のスコア推定が実際のスコアと独立している仮想世界を考えてみると、その世界ではD-K効果は実在すると言ってもよいのではないか
この効果の核心は、低いスコアを取った人が自分のスコアを過大評価し、高いスコアを取った人が過小評価する傾向にあること。そうしたことが起きる合理的な理由はいくつもあり得るし、著者のおもちゃの例のように誰も自分のスコアをうまく見当づけられない場合も含まれるが、現象自体は正しいように見える
- まさにそこが核心だ
  著者のランダム点の例はよくない。人は一様ランダムな点とは違う振る舞いをすると期待するのが合理的だからだ。何かが得意な人は自分が得意だと推定し、不得意な人は不得意だと推定するだろう。うちの子どもたちは数学が好きで、数学の試験でよい点を取るだろうと予想しており、たいてい実際にもよい点を取る。クラスメートの中には、数学が嫌いだと大声で言い、できないだろうと予想し、実際にもある程度できない子どもたちがいる。私も料理ができないので、料理コンテストに出れば審査点が低いだろうことを疑っていない。期待されるデータは相関している。ところが研究で実際にはその相関がほとんどなく、できると思っていた多くの人ができず、できないと思っていた多くの人ができる、つまり一様ランダムなデータのように見えるなら、それこそ驚くべき結果で、D-K効果ではないかと思う。統計学者ではないので、何か見落としているかもしれない
- 統計的錯視だとしても相関自体は真だが、そうなると心理学者が研究する理由はなくなる
  サイコロを1つ振り、2つ目のサイコロを振ったあと、なぜ2つ目のサイコロが1つ目と合わせて7になろうとするのかを研究することもできる。サイコロなら馬鹿げた発想として片づけるだろうが、対象が人間だと、彼らについての心理学的理論に簡単に誤って引きずられかねない
この記事の自己相関の定義は「変数をそれ自身と相関させるときに発生する」だが、Wikipediaの定義は「離散時間では系列相関とも呼ばれ、信号を遅延した自己のコピーと、遅延の関数として相関させること」だ
もちろん遅延0は時間遅延の自明な場合ではあるが、この記事の定義は好意的に見ても不正確だ。D-Kは時間遅延とは何の関係もなく、これを自己相関と呼ぶのは、あまり通用しない言葉遊びのように見える
- 公平に言えば、地球統計学には空間的自己相関もあるので、自己相関という用語が必ずしも変化の次元が時間であることを意味するわけではない
ここでは「バイアス」が何を意味するのかを混同しているようだ
人々がランダムに自己評価をするなら、上位の成績者は全員が自分を過小評価することになるが、選択自体がランダムなので、これは過小評価方向のバイアスではない。ただしD-Kチャートは別のバイアスを示しており、予想ともおおむね一致する。知識のない人は自分を平均的な実力だと仮定して位置を膨らませ、非常に優れた人は他人も自分くらい知っていると思って、自分を最高と評価しないようにする。両集団に共通する仮定は、自分は普通で、他人も似たようなものだということだ。ほとんどの人は自分を平均だと思うだろうし、平均的な人が試験でどれくらいよい成績を取るかを評価させたうえで個人の点数と比較すれば、簡単に検証できる。ほぼ間違いなく、上位の成績者は平均を過大評価し、下位の成績者は過小評価するだろう
試験点数X、つまり能力と、自己評価Y、つまり自己認識の間に線形関係があるなら、確率変数は Y ~ aX + b + N とモデル化される
ここでNは平均0の統計的に独立なノイズだ。すると共分散は Cov(Y-X, X) = (a-1) Var[X] となり、「D-K効果」を得るには (a-1) < 0、つまり a < 1 でなければならない。ブログ記事のように a=0 なら確実に成り立ち、理想的な場合である a=1, b=0 ならかろうじて成り立たない。a > 1 なら、傲慢な専門家に関するまったく新しい効果が生まれる。したがって、この自己相関の観点で重要なのは、個人の自己評価が能力の増加に応じてどれだけ速く増加するかだけだ。増加幅を過小評価する限り、D-K効果は生じる。しかしこの分析はbを無視している。a=0.8, b=0 なら自己相関の観点には合うが、全員が自分の能力を過小評価するので、いわゆるD-K効果は現れない。結局、b、つまり誰もが自分にあると仮定する事前の能力値が重要だ。D-K論文が示しているのは b > .5 であり、これは一般的な解釈の精神に合っている。人々が少なくとも平均より高い能力を持っていると仮定してはならない。同時にbは.5より途方もなく高いわけではないので、「未熟で無自覚な人々」にもある程度の余地を与えたい気もする。基準線を平均に置くことは実際には不可能だが、直感的にはもっともらしく感じられる
あれは自己相関ではない。原文は線形依存性を自己相関と同一視しているが、その用語はそのようには使わない
自己相関とは、確率過程が時間遅延した自分自身と相関する場合を言う
原文記事を最後まで読んでいない人が多いようだ。要点はこの論文を参照しながら出てくる: https://digitalcommons.usf.edu/cgi/viewcontent.cgi?article=1...
この論文の図2は、実力と自己の実力認識を独立に測定した実験結果を示している。自己相関という統計的アーティファクトを取り除くための設計だ。ところが平均すると、実力は自己評価の正確さと相関がなく、D-K効果もまったくない。実際に現れるのは、より有能な人のほうが自分の実力をより一貫して推定するという点、つまり評価の変動性がより低いということだけで、平均的な正確さは依然として0だ。したがって平均すると、実際の実力と認知された実力には相関がなく、ランダムな数字で示された数値的な証明が言っていることもまさにこれだ。だから多くの場合、オッカムの剃刀を適用することになる

ダニング＝クルーガー効果は自己相関である

ダニング＝クルーガー効果を統計的に見直す

元のダニング＝クルーガー図の構造

2 本の線の差が生む自己相関

無作為データでも同じパターンを作る

Nuhfer らによる代替的検証

パーセンタイル変換が加えるバイアス

批判が広く浸透しなかった理由

関連記事

1件のコメント

Hacker Newsの意見