- 線形最小二乗回帰線が単純なテストデータで実際より傾いて見える理由は、データ生成過程の特性によるもの
- 回帰モデルは 誤差項が X と独立であるという仮定のもと、( Y = \beta_0 + \beta_1 X + \varepsilon ) の形に従う
- 誤差分散が大きくなるほどデータの分散は垂直方向に大きくなり、PCA の主成分方向は次第に垂直に近づく
- 逆に X の分散が誤差よりはるかに大きいとき、PCA と OLS 回帰線はほぼ一致する
- この違いは、**PCA と OLS が異なる目的(分散の最大化 vs. 誤差の最小化)**を持つためであり、データの分布形状に応じて視覚的に異なる結果を示す
回帰モデルとデータ生成過程
- 単純 OLS(最小二乗法)は ( Y = \beta_0 + \beta_1 X + \varepsilon ) の形で、X と誤差項 (\varepsilon) が独立であるという仮定を前提とする
- 誤差項が 0 のとき、すべての点は回帰線上に位置し、PCA の主成分方向は回帰線と一致する
- 誤差を追加すると分散が垂直方向に増加し、PCA はその分散を反映して より傾きの急な方向を主成分として選ぶ
誤差分散が支配的な場合
- ( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) の関係において
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) であれば、変動の大部分は垂直方向に集中する
- このとき PCA の主成分方向はほぼ垂直に近づき、つまり回帰線よりもさらに急に見える
- 逆に ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) であれば、PCA と OLS はほぼ一致する
共分散楕円と分布形状
- **共分散楕円(covariance ellipse)**は、( (X, Y) ) が 同時正規分布に従う場合にのみ、データの形状をうまく表す
- X の分布が二項、均一、二峰性(bimodal)、三角形などに変わる場合でも、
X の分散が大きければ PCA と回帰線は一致し、誤差が大きければ PCA は垂直方向へ移動する
- 楕円はデータの方向性を示すが、密度や実際の分布形状を正確に表現するものではない
X の性質とモデリング上の考慮事項
- コード中の
make_y_from_x 関数は、OLS の仮定に合わせて Y を X の線形関数と IID ガウス雑音から生成する
- X は必ずしも確率変数である必要はなく、実験設計に応じて固定値であってもよい
- 共分散楕円は X と Y を対称的に扱う一方、実際のデータ生成過程は非対称的である
要点まとめ
- ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ):PCA と OLS は一致
- ( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) ):PCA は垂直方向へ移動
- X は必ずしも確率変数である必要はなく、正規分布に従う必要もない
- PCA は分散の方向、OLS は予測誤差の最小化に焦点を当てるため、結果が異なって現れる
1件のコメント
Hacker Newsの意見
一方、視覚的に X と Y の両方にノイズがあるとみなすアプローチは Total Least Squares(TLS) と呼ばれる。
そのため、一般には Deming 回帰のほうが望ましいと教わった(Deming regression)。
たとえば 1kHz でサンプリングするセンサーなら、MCU のクロックジッタよりセンサー自体のノイズのほうがずっと大きい。
x 分散が非常に小さいとデルタが大きくなり、条件数の悪いモデルになることがある。
たとえばアナログ-デジタル変換器では、時間は水晶発振子で安定しているが、測定値はそうではない。
1 乗、3 乗、4 乗など他の指数もありうるのに、なぜいつも二乗が出てくるのか不思議だ。
誤差分布が異なるなら、別の損失関数のほうが適切なこともある。
たとえば Huber loss は小さい誤差には二乗、大きい誤差には線形に働き、外れ値に頑健である。
詳しい式は Boyd & Vandenberghe の Convex Optimization 352–353 ページを参照。
また ANOVA はピタゴラスの定理に基づくため、二乗項が不可欠である。
Gauss–Markov の定理は、この推定量が不偏で最小分散であることを保証する。
1 より小さい指数には、大きな誤差 1 つを複数の小さな誤差より好むという奇妙な性質がある。
一方で二乗は数学的に扱いやすく、単純線形回帰の数値的性質も良い。
4 乗以上の高次項は局所最適解が多く、微分も複雑で、計算上の単純さに欠ける。
新しい観点を提示するのは簡単ではない。
純粋に数学的観察として面白い、という程度だ。
前者は Y 軸方向の距離の二乗和、後者は直線に対する 直交距離の二乗和を最小化する。
授業中にこれを見つけて戸惑った。正規化で解決できるのではないかと思った。
正しい傾きを確かめるには、特定の x において 残差(residual) が両側で釣り合っているかを見るとよい。
たとえば y = 1.5x + noise でデータを作ると、回帰直線は 1.5 の傾きをうまく復元するが、見た目には不自然に見えることがある。
StackExchange の質問は、X に誤差がなくてもなぜ回帰直線が 3σ 楕円の軸と一致しないのかを問うている。
この回答は、X の誤差が 0 の例を示している。