6 ポイント 投稿者 GN⁺ 2024-09-30 | 2件のコメント | WhatsAppで共有

高すぎる効率性はあらゆるものを悪化させる: 過学習と強いバージョンのグッドハートの法則

効率性が高まると、逆説的に結果が悪くなることがある。これはほとんどあらゆる場所で当てはまる。この現象を強いバージョンのグッドハートの法則と呼ぶことにする。たとえば、標準化テストによる生徒の学力の中央集権的な追跡は良いアイデアのように見えるが、学校が試験対策に集中するようになり、全体的な教育成果を悪化させる可能性がある。政治、経済、健康、科学など、多くの分野にも同様の例が存在する。

過学習とグッドハートの法則

  • 過学習: 機械学習では目標を直接当てられないため、類似したプロキシを使ってモデルを訓練する。最初はプロキシが改善されると目標も改善されるが、最適化を続けると、プロキシがさらに良くなっても目標はそれ以上改善されなくなる。これを過学習と呼ぶ。
  • グッドハートの法則: 測定が目標になると、良い測定ではなくなる。これは経済学だけでなく、さまざまな分野に適用される。

強いバージョンのグッドハートの法則: 効率的になりすぎると、私たちが気にしているものが悪化する

  • プロキシ目標を継続的に最適化すると、目標が悪化する可能性がある。これは機械学習で非常に一般的な現象である。
  • 強いバージョンのグッドハートの法則: 測定が目標となり、効果的に最適化されると、測定しようとしているものが悪化する。

効率性の向上と過学習はいたるところに存在する

  • 効率性が高まると、社会全体にわたって肯定的または否定的な結果をもたらしうる。
  • 例:
    • 目標: 子どもたちをしっかり教育する
      • プロキシ: 標準化テストの成績
      • 結果: 試験対策だけに集中し、実際の教育の質が低下する
    • 目標: 科学を迅速に発展させる
      • プロキシ: 出版物数に応じたボーナス
      • 結果: 不正確な研究結果の出版が増える
    • 目標: 健康な人口
      • プロキシ: 栄養価の高い食品へのアクセス
      • 結果: 肥満問題

過学習と強いバージョンのグッドハートの法則を緩和する方法

  • プロキシ目標と望ましい結果をよりよく一致させる: 機械学習ではテスト状況に似た訓練例を収集する。社会システムでは、法律、インセンティブ、社会規範を変更し、目標との整合性を高める。
  • 正則化ペナルティを追加する: 機械学習ではパラメータの大きさを小さく保つ。社会システムでは、複雑性を減らしたり追加コストを課したりする。
  • システムにノイズを注入する: 機械学習では入力、パラメータ、内部状態にランダムノイズを加える。社会システムでは、予測可能性を下げるためにランダムな要素を追加する。
  • 早期停止: 機械学習では検証損失が悪化し始めたら訓練を止める。社会システムでは、意思決定時間を制限したり市場活動を停止したりする。
  • 能力/容量の制限: 機械学習ではモデルを小さくして過学習を防ぐ。社会システムでは、組織やエージェントの容量を制限する。
  • 能力/容量の増加: 機械学習ではモデルを非常に大きくして過学習を防ぐ。社会システムでは、能力を大幅に高めることで目標とプロキシの間のトレードオフを取り除く。

終わりに

強いバージョンのグッドハートの法則は、AIに対する個人的な恐れの根本原因である。AIはほぼあらゆる作業で効率性を高めうる。この問題を解決するための研究機会は多い。社会システムが強いバージョンのグッドハートの法則によって崩壊すると、それを解決するための合理的な行動を取ることが難しくなる。この現象に名前を与え、よりよく理解することは助けになるだろう。

GN⁺のまとめ

  • 強いバージョンのグッドハートの法則は、効率性が高まると目標が悪化しうることを説明する。
  • 機械学習における過学習現象と似ており、さまざまな分野に適用できる。
  • プロキシ目標と実際の目標をよりよく一致させ、正則化ペナルティを追加し、システムにノイズを注入するなどの方法で問題を緩和できる。
  • AIの効率性向上によってさまざまな副作用が生じうるため、それを解決するための研究が必要である。
  • 社会システムが崩壊しないよう、強いバージョンのグッドハートの法則を理解して対処することが重要である。

2件のコメント

 
gguimoon 2024-10-02

韓国の大学修学能力試験は、数学能力を測定するという当初の目的から外れ、等級カットの配分だけを効率化しようとするシステムへと変質したと聞きました。これはグッドハートの法則から逃れられていない例に見えます。

 
GN⁺ 2024-09-30
Hacker Newsの意見
  • JaschaはGoogle Brainにいた優れたML研究者で、現在はAnthropicにいる

    • ディープニューラルネットワークにおける信号伝播を数学的に説明した研究で有名
    • dynamical isometry のような概念を通じて、非常に深いTransformerモデルの収束を達成した
    • 彼の最適化に関する直感は、MLを超えて現代社会全般に及んでいる
    • 彼のメッセージは技術的背景を超え、人間的で共感的な行動を促すもの
    • 過学習の問題と、経済学・政治学・経営学など他分野との数学的なつながりを示唆している
  • Goodhartの法則は、測定が目標になると良い測定ではなくなるというもの

    • 問題は測定だけでなく人間の行動にもある
    • 人間は設定された制御システムを悪用しようとする
    • Campbellの法則のほうがこれをより適切に説明している
    • 正則化や早期終了などの緩和策は、間接的だったり新たな問題を生んだりする可能性がある
  • スウェーデンではこの20年間、社会問題として浮上してきた

    • 医療の効率性は、かかりつけ医の「完了した業務」で測定される
    • 単純なケースを処理するよう最適化され、個人的な接触が失われている
    • 鉄道システムは民営化されたが、遅延問題に苦しんでいる
  • 運動生理学にも似た法則がある

    • 一般的なトレーニング方法論のほうが、より意味のある指標を提供する
    • 専門化したアスリートのパフォーマンス向上は、一般的な体力向上を意味しない
    • スポーツには「基礎体力」と「最高体力」のたとえがある
  • 待ち行列理論にも関連する法則がある

    • 稼働率が100%に近づくと、待ち時間は無限大に増加する
    • 余裕が必要
  • GDPに集中するのは好ましくない

    • 生活満足度や楽観度に関する四半期ごとの調査のほうが、より良い指標である
    • GDPは経済活動を反映するが、生活の質は反映しない
  • 地元のハードウェア店でこの法則の例を見つけた

    • 盗難防止ケージの設置によって顧客体験が悪化した
    • データに基づく意思決定が常に最適な結果をもたらすとは限らない
  • チェーンレストランを訪れたときにも似た経験をした

    • すべてが最適化されていて、機械的で人工的に感じられる
    • 顧客体験ではなく、収益創出に焦点が合わされている
  • 著者の名前を思い出した

    • 2015年に最初の生成拡散モデルを発明した
  • 効果自体は存在するが、例は正確ではない

    • 学業成績の過度な重視は教育の目的とは異なる
    • 肥満は栄養価の高い食品を優先した結果ではない
    • 不平等の拡大は、社会的必要に応じた資源配分とは無関係
    • 刺激不足が感覚的な依存やギャンブルを引き起こす
    • 公教育の拡大、砂糖税、富の再分配のほうがより簡単な解決策である