単純なデータに最小二乗フィットを適用すると、なぜバイアスがあるように見えるのか

(stats.stackexchange.com)

1 ポイント投稿者 GN⁺ 2026-01-06 | 1件のコメント | WhatsAppで共有

線形最小二乗回帰線が単純なテストデータで実際より傾いて見える理由は、データ生成過程の特性によるもの
回帰モデルは 誤差項が X と独立であるという仮定のもと、( Y = \beta_0 + \beta_1 X + \varepsilon ) の形に従う
誤差分散が大きくなるほどデータの分散は垂直方向に大きくなり、PCA の主成分方向は次第に垂直に近づく
逆に X の分散が誤差よりはるかに大きいとき、PCA と OLS 回帰線はほぼ一致する
この違いは、**PCA と OLS が異なる目的（分散の最大化 vs. 誤差の最小化）**を持つためであり、データの分布形状に応じて視覚的に異なる結果を示す

回帰モデルとデータ生成過程

単純 OLS（最小二乗法）は ( Y = \beta_0 + \beta_1 X + \varepsilon ) の形で、X と誤差項 (\varepsilon) が独立であるという仮定を前提とする
誤差項が 0 のとき、すべての点は回帰線上に位置し、PCA の主成分方向は回帰線と一致する
誤差を追加すると分散が垂直方向に増加し、PCA はその分散を反映して より傾きの急な方向を主成分として選ぶ

誤差分散が支配的な場合

( \operatorname{Var}(Y) = \beta_1^2 \operatorname{Var}(X) + \operatorname{Var}(\varepsilon) ) の関係において
( \operatorname{Var}(\varepsilon) \gg \beta_1^2 \operatorname{Var}(X) ) であれば、変動の大部分は垂直方向に集中する
このとき PCA の主成分方向はほぼ垂直に近づき、つまり回帰線よりもさらに急に見える
逆に ( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) ) であれば、PCA と OLS はほぼ一致する

共分散楕円と分布形状

**共分散楕円（covariance ellipse）**は、( (X, Y) ) が 同時正規分布に従う場合にのみ、データの形状をうまく表す
X の分布が二項、均一、二峰性（bimodal）、三角形などに変わる場合でも、
X の分散が大きければ PCA と回帰線は一致し、誤差が大きければ PCA は垂直方向へ移動する
楕円はデータの方向性を示すが、密度や実際の分布形状を正確に表現するものではない

X の性質とモデリング上の考慮事項

コード中の make_y_from_x 関数は、OLS の仮定に合わせて Y を X の線形関数と IID ガウス雑音から生成する
X は必ずしも確率変数である必要はなく、実験設計に応じて固定値であってもよい
共分散楕円は X と Y を対称的に扱う一方、実際のデータ生成過程は非対称的である

要点まとめ

( \operatorname{Var}(X) \gg \operatorname{Var}(\varepsilon) )：PCA と OLS は一致
( \operatorname{Var}(\varepsilon) \gg \operatorname{Var}(X) )：PCA は垂直方向へ移動
X は必ずしも確率変数である必要はなく、正規分布に従う必要もない
PCA は分散の方向、OLS は予測誤差の最小化に焦点を当てるため、結果が異なって現れる

1件のコメント

GN⁺ 2026-01-06

Hacker Newsの意見

線形回帰（Linear Regression）、つまり Ordinary Least Squares(OLS) は、Y にのみノイズが存在し、X は正確であると仮定する。
一方、視覚的に X と Y の両方にノイズがあるとみなすアプローチは Total Least Squares(TLS) と呼ばれる。
- Wikipedia の Total Least Squares の図を見ると直感的に理解できる。
- x と y を入れ替えて傾きをもう一度計算してみると、TLS が何をしているのか感覚がつかめる。
以前、QuantSci の教授が「x データにまったく誤りのない収集シナリオを挙げてみなさい」と尋ねたことがあった。
そのため、一般には Deming 回帰のほうが望ましいと教わった（Deming regression）。
- たいていのセンサーデータでは、Y 軸のノイズは X 軸よりはるかに大きい。
  たとえば 1kHz でサンプリングするセンサーなら、MCU のクロックジッタよりセンサー自体のノイズのほうがずっと大きい。
- Deming 回帰におけるデルタ（δ）は y 分散と x 分散の比である。
  x 分散が非常に小さいとデルタが大きくなり、条件数の悪いモデルになることがある。
- 私の分野では X データの測定ジッタは 10ns 以下なので、実質的に誤りなしと言えるレベルだ。
- OLS は BLUE(Best Linear Unbiased Estimator) であり、最小分散を持つ線形推定量である点が特別だ。
- ほとんどの時系列では時間測定ノイズは無視できるが、GPS 座標のような他の変数では複雑な結合現象が生じうる。
線形回帰は Y のノイズだけをモデル化するが、PCA の楕円／固有ベクトルは X と Y のノイズの両方を考慮する。
- 多くのシステムで Y のノイズが X より大きいのは興味深い。
  たとえばアナログ-デジタル変換器では、時間は水晶発振子で安定しているが、測定値はそうではない。
- データ分析でトレンドラインを求めるとき、PCA の 固有ベクトル方向を使うほうがよいのではないかという疑問が湧く。
- 入力と出力の両方にノイズがあると仮定して ニューラルネットワークを学習させると面白そうだ。
- もし Y が X より n 倍うるさいと分かっているなら、その情報を使ってよりよいフィッティングができるのではないかと思う。
長いこと統計を扱っていないので、なぜ必ず 二乗(squares) を使うのかが理解できない。
1 乗、3 乗、4 乗など他の指数もありうるのに、なぜいつも二乗が出てくるのか不思議だ。
- 二乗和最小化は、誤差が正規分布(iid normal) だと仮定した場合に最尤推定（MLE）を与える。
  誤差分布が異なるなら、別の損失関数のほうが適切なこともある。
  たとえば Huber loss は小さい誤差には二乗、大きい誤差には線形に働き、外れ値に頑健である。
  詳しい式は Boyd & Vandenberghe の Convex Optimization 352–353 ページを参照。
  また ANOVA はピタゴラスの定理に基づくため、二乗項が不可欠である。
- 平均は L2 ノルムを最小化するので、OLS を確率変数の観点から見ると 条件付き期待値 E[Y|X] を推定する自然な形として L2 が現れる。
  Gauss–Markov の定理は、この推定量が不偏で最小分散であることを保証する。
- 1 乗では解が一意にならない。たとえば (0,0), (1,0), (1,1) の 3 点では、a が 0〜1 の間ならどれも同じ誤差和になる。
  1 より小さい指数には、大きな誤差 1 つを複数の小さな誤差より好むという奇妙な性質がある。
  一方で二乗は数学的に扱いやすく、単純線形回帰の数値的性質も良い。
- Wikipedia の Least Squares 項目にはさまざまなアプローチが整理されている。
  4 乗以上の高次項は局所最適解が多く、微分も複雑で、計算上の単純さに欠ける。
- 要するに、abs は 0 近傍で微分不可能で、4 乗はノイズに過敏で、3 乗は分散の線形性を壊してしまう。
このスレッドの内容の大半は、すでに StackExchange の議論でかなり整理されている。
新しい観点を提示するのは簡単ではない。
- StackExchange の回答はすでに十分完成度が高い。
  純粋に数学的観察として面白い、という程度だ。
- それでもこうした話題を持ち込めば、StackExchange より 自由な会話ができるという意味はある。
- このフォーラムには少し成熟しすぎた回答かもしれない。
Least Squares と PCA は異なる損失関数を最小化する。
前者は Y 軸方向の距離の二乗和、後者は直線に対する 直交距離の二乗和を最小化する。
- だとすると、なぜ最小二乗の直線は下向きに傾いているように見えるのだろうか。向きが恣意的に思える。
- 最小二乗を ガウス分布に当てはめる過程として見ると理解しやすい。
y を x に対して回帰し、x を y に対して回帰すると、異なる直線が出てくる。
授業中にこれを見つけて戸惑った。正規化で解決できるのではないかと思った。
- しかし、バイアスをなくす正しい方法は正規化ではなく、座標に依存しない回帰手法を使うことだ。
用語整理として付け加えると、最小二乗モデルは x にノイズがあるかないかにかかわらず、平均誤差が 0 の予測、つまり統計的に不偏な予測を与える。
回帰結果を見ると視覚的には線が間違っているように見えても、実際にはモデルが正しいことがある。
正しい傾きを確かめるには、特定の x において 残差(residual) が両側で釣り合っているかを見るとよい。
たとえば y = 1.5x + noise でデータを作ると、回帰直線は 1.5 の傾きをうまく復元するが、見た目には不自然に見えることがある。
- 残差プロットを比較すると最も明確に確認できる。
この問題はしばしば Regression Dilution と呼ばれる（Wikipedia リンク）。
- ただし Regression Dilution は、X データの誤差によって回帰直線がバイアスされる場合を指す。
  StackExchange の質問は、X に誤差がなくてもなぜ回帰直線が 3σ 楕円の軸と一致しないのかを問うている。
  この回答は、X の誤差が 0 の例を示している。

単純なデータに最小二乗フィットを適用すると、なぜバイアスがあるように見えるのか

回帰モデルとデータ生成過程

誤差分散が支配的な場合

共分散楕円と分布形状

X の性質とモデリング上の考慮事項

要点まとめ

関連記事

1件のコメント

Hacker Newsの意見