過度な効率性の副作用 (2022)

(sohl-dickstein.github.io)

6 ポイント投稿者 GN⁺ 2024-09-30 | 2件のコメント | WhatsAppで共有

効率性は目標と指標がうまく一致しているときにのみ成果を高め、代理指標を過度に最適化すると、本当に重要だった対象が悪化することがある
機械学習の過学習はこの構造をよく示しており、訓練データと代理目的関数は改善しても、実際の性能は頭打ちになったり悪化したりしうる
標準化試験、論文ボーナス、報酬回路の最大化、世論支持、情報共有、資本主義、paperclip maximizer の事例は、目標と代理指標の不一致が社会システムでも繰り返されることを示している
緩和策としては、代理目標の整合、正則化、ノイズ注入、早期停止、能力制限、能力拡大があり、機械学習における過学習対策の考え方を社会システムにたとえて適用している
AI がほぼあらゆる作業の効率性を急速に高められるなら、誤って整合された目標をより上手く追求させる形の制度改善は危険になりうる

効率性と Goodhart の法則の強いバージョン

効率性の向上は直感に反して、より悪い結果を生むことがあり、この現象をGoodhart の法則の強いバージョンと呼ぶ
標準化試験による生徒の進度追跡は、中央集権的で効率的な測定に見えるが、学校が幅広く有用な技能よりも試験で高得点を取る方法に集中するよう促してしまうことがある
Goodhart の法則とは、「測定値が目標になると、それは良い測定値ではなくなる」という法則である
- もともとは金融政策の文脈で生まれたが、より広い領域に適用できる
- 機械学習では、最適化している代理目的関数が、実際に気にかけている目的の良い測定値でなくなる状況に対応する

機械学習の過学習とのつながり

機械学習では直接望む目標を最適化できないため、代理データセットと代理目的関数を使う
- 画像分類の例では、実際の目標はテストデータセットでの分類精度である
- モデルはテストデータセットで訓練できないため、訓練データセットを使う
- 精度は微分可能ではないため、素朴な勾配降下法の直接目標にしにくく、通常は softmax-cross-entropy loss のような微分可能な代理値に置き換えられる
初期段階では、代理指標が改善すると実際の目標も一緒に改善する
最適化を続けると、目標と代理指標の間にあった使える類似性が使い尽くされ、代理指標は改善し続けても目標はそれ以上良くならない
過度な最適化は、実際の目標を絶対的に悪化させることがあり、目標が無限大へ発散する場合さえ多い

強いバージョンが一般的な Goodhart の法則と異なる点

一般的な Goodhart の法則では、代理指標を最適化すると、やがて実際の目標はそれ以上改善しなくなると考える
強いバージョンでは、効果的に最適化された測定値が、かえって測定しようとしていた対象そのものを悪化させると考える
一文で言えば次のとおり
- 「測定値が目標になったとき、それが効果的に最適化されると、測定しようとしていた対象は悪化する」
この現象は単なる過学習と同じではない
- 過学習は、代理指標が目標よりも良くなる相対的な現象を指す
- ここで強調しているのは、目標が絶対的な意味で悪化する現象である
関連概念として、perverse incentives、Campbell’s law、Streisand effect、unintended consequences、Jevons paradox、negative externalities、Goodhart’s curse がともに扱われる
- Goodhart’s curse は optimizer’s curse を因果メカニズムとして含むが、それだけでは実際の目標が絶対的に悪化する理由を説明できないと区別している

社会システムで繰り返される過学習

効率性の向上は社会のほぼあらゆる側面に広がっている
- より効率化される対象が実際に有益なら、世界をより良くできる
- 社会的に有害な対象をより効率化すると、大規模監視やロボット兵器のような恐ろしく陰鬱な結果になりうる
- 最もよくあるのは、有益な結果とは関係があるが同一ではない対象を、より効率化してしまう状況である
目標と代理指標がずれると、社会システムも機械学習のように過学習しうる
- 目標: 子どもをよく教育すること代理指標: 標準化試験で生徒と学校の成果を測ること結果: 学校は、試験が測ろうとしていた基礎能力よりも、試験問題の形式に合わせた教育に集中する
- 目標: 科学の迅速な進歩代理指標: 論文ごとに現金ボーナスを支給すること結果: 不正確または漸進的な結果の発表、査読者と著者の共謀、論文工場の発生
- 目標: よく生きられた人生代理指標: 脳の報酬経路を最大化すること結果: 薬物依存、ギャンブル依存、Twitter の doomscrolling による時間の喪失
- 目標: 健康な人口代理指標: 栄養豊富な食べ物へのアクセス結果: 肥満の流行
- 目標: 人々の利益に従って行動する指導者代理指標: 人々の支持を最も多く集める指導者結果: 社会的成果よりも世論操作に専門性と情熱を注ぐ指導者
- 目標: 情報に通じ、思慮深く、参加する市民代理指標: 人々がアイデアを容易に共有し発見できる能力結果: フィルターバブル、陰謀論、寄生的ミーム、強化された部族主義
- 目標: 社会の必要に基づく労働と資源配分代理指標: 資本主義結果: 年間数百ドルから毎秒数百ドルにまで及ぶ巨大な富の格差と、10億人を超える貧困
- 目標: Paperclips Unlimited, LLC の所有者の富代理指標: AI 運営の製造工場が作ったクリップの数結果: 会社所有者を含む太陽系全体がクリップに変換される paperclip maximizer シナリオ

過度な効率化が危険になりうる領域

次の領域は、初期の改善は広く有益だったかもしれないが、あまりにうまくなりすぎると大きな負の結果を生みうる例として扱われる
- telepresence と仮想現実
- 個別化医療
- 遺伝子治療
- 個々の消費者や有権者に合わせたマーケティングメッセージ
- 選挙結果予測
- コード作成
- 人工知能
- サプライチェーンの余裕の除去
- アイデアの急速な拡散
- エンターテインメント生成
- 人々が購入する新製品の特定
- 家畜飼育
- 証券取引
- 海からの魚の採取
- 自動車製造

緩和策 1: 代理目標の整合と正則化

代理目標を望ましい結果によりよく合わせることが第一の緩和策である
- 機械学習では、テスト時の状況にできるだけ近い訓練例を慎重に収集する方法がよく使われる
- 機械学習以外では、法律、インセンティブ、社会規範のような制御可能な代理指標を変え、目標とより整合した行動を直接促す
正則化ペナルティも過度な最適化を緩和できる
- 機械学習では、パラメータの二乗ノルムにペナルティを課して値を小さく保つ方法が一般的である
- 正則化は望ましくない行動を直接狙う必要がなく、モデルが典型性から外れることを罰するほぼあらゆる方法が有効に働きうる
社会システムにおける正則化は、複雑さ、摩擦、追加コストを与える方法としてたとえられる
- SMTP に課金メカニズムを追加し、メールごとに小さな費用を課す
- 累進課税によって、異例の成功が不均衡に大きなコストと結びつくようにする
- 組織が提起した訴訟件数の二乗または指数に比例する裁判所手数料を課す
- ユーザーについて保存した情報のビット数に課税する

緩和策 2: ノイズ注入と早期停止

ノイズ注入は、入力、パラメータ、モデル内部状態にランダムな揺らぎを加え、過学習を起こしにくくする方法である
社会システムでもランダム性を入れることで、代理指標への過度な適合を減らせる
- 競争の激しい学校や職の候補者を順位付けしたあと、上位 k 人に確定オファーを出す代わりに、順位に比例した確率でオファーを出す
  - 合格者の多様性が高まる可能性がある
  - 応募者がアプリケーションを微調整したり、レビューアがわずかな順位差を吟味したりするために使う資源を減らせるかもしれない
  - 失敗の可能性が高い長期的候補者が選ばれることもあるが、慣習と異なる形で非常に価値ある成功を収める可能性もある
- 試験日を事前に告知せずランダムに設定し、一夜漬けより理解中心の学習を促す
- 証券取引所に、取引処理時点へ標準偏差約1秒のランダムなジッターを加えるよう義務づける
- 選挙当日の投票方式の細部をランダム化し、候補者が現行制度の偶然的な細部に過学習するのを防ぐ
早期停止は、機械学習で破局的な過学習を防ぐ最も効果的なツールとして扱われる
- 訓練損失とテスト性能に加え、検証損失を監視する
- 訓練損失が改善し続けていても、検証損失が悪化し始めたら訓練を止める
社会システムでは、過剰な準備、分析、最適化を止めさせる仕組みとして対応できる
- 提案依頼から提出締切までの時間を大幅に制限し、既存の準備度をよりよく反映させる
- 株価変動率が閾値を超えたら、すべての市場活動を停止する
- 競争を妨げる企業を独占禁止法で分割する
- 意思決定の重要性を金額で見積もり、すでに分析に費やした時間の価値がその金額に近づいたら即座に決定する
- 選挙前48時間の報道制限のように、主体が目標達成に使える情報を凍結する

モデル容量と過学習の関係

極端な過学習のよく理解された原因の一つは、モデルの表現力が代理課題の複雑さに近すぎる形で一致してしまう状況である
モデルが非常に弱ければ、課題で少ししか前進できず、目標と代理指標の類似性を使い尽くさない
モデルが非常に強く表現力が大きければ、代理目的を独立に最適化しつつ、他の目的で極端な振る舞いを生まない場合がある
表現力が課題複雑性とおおむね釣り合うとき、たとえばパラメータ数が訓練例数より何桁も多すぎも少なすぎもしないとき、代理課題をうまくこなすには他の場所で極端な振る舞いが必要になることがある
Figure 1 のおもちゃ実験では、1次元入力 x を 1次元出力 y に写像するモデルを、同じ10個のデータポイントで訓練している
- 4個のパラメータを持つモデルは、データポイントを正確に合わせるには弱すぎるが、滑らかに近似する
- 10,000個のパラメータを持つモデルは、すべてのデータポイントを容易に合わせ、その間も滑らかに補間する
- 10個のパラメータを持つモデルは、データポイントに合わせられるほど十分に強いが、訓練データの外では極端に曲がり、新しい x 値の予測が非常に悪くなりうる
- 詳細な実験は colab notebook にある

緩和策 3: 能力制限と能力拡大

能力または容量の制限は、モデルが過学習できないほど小さくする機械学習手法に対応する
- 選挙資金の制限
- 特定種別の企業で働ける人数の上限設定。たとえばロビー団体は10人までに制限する
- AI システムが使えるパラメータ数や訓練計算資源の上限設定
能力または容量の拡大は、モデルが非常に大きくなると訓練データに過学習してもテストデータ性能を悪化させないことがある、という観察に対応する
- 目標と代理指標の間に性能トレードオフが不要になるほど能力を大きくする方法である
- すべてのデータベースを公開アクセス可能にし、すべての建物にカメラを設置して、すべての人・政府・組織に関する情報を常に誰でも見られるようにするシナリオが例として挙げられる
  - このシナリオは、著者の価値観ではディストピアだと明示されている
- クリーンエネルギーの基礎研究への投資
- 可能な限り複雑で不透明かつ多様な市場取引商品を、複数の満期期間にわたって開発する
- あらゆるシナリオで、最大かつ最も計算資源とデータを要する AI モデルを使う
能力をひたすら拡大する方法は、機械学習では驚くほどよく機能し、抵抗の少ない道である
誤って整合された目標を追う機関を盲目的に強化しながら制度を改善しようとするやり方は、ひどいアイデアだと評価される

AI と研究課題

Goodhart の法則の強いバージョンは、AI に関する主要な個人的恐れの土台として提示される
AI が可能にする中核的な変化は、ほぼすべての作業において非常に短期間で効率性の向上を生み出すことである
さまざまな望ましくない副作用に同時に対処する必要があり、その解決のために協力する能力自体も攪乱されうる
機械学習の過学習の結果と、経済学、政治学、経営科学、オペレーションズ・リサーチなどの問題との間に、形式的・数学的な橋を架ける研究機会が大きい
- PAC Bayes bound を使って、労働者の富を最大化するための労働組合の最適な権力水準を予測する例が示される
- 政治競争において候補者が制御できる変数とできない変数のスペクトラムを推定し、政治的崩壊点を予測する例も示される
社会システムが Goodhart の法則の強いバージョンのために壊れていくほど、それを修復するために必要な共同の合理的行動はさらに難しくなる

2件のコメント

gguimoon 2024-10-02

韓国の大学修学能力試験は、数学能力を測定するという当初の目的から外れ、等級カットの配分だけを効率化しようとするシステムへと変質したと聞きました。これはグッドハートの法則から逃れられていない例に見えます。

GN⁺ 2024-09-30

Hacker Newsのコメント

Jascha は以前 Google Brain にいて、現在は Anthropic に所属している 非常に優れた機械学習研究者として知っている。
彼は共著者たちとともに、物理学・統計学の手法である平均場理論と自由確率論を用いて、深層ニューラルネットワークにおいて信号がどのように伝播するかを数学的に特徴づけた。ここ10年の機械学習における理論・実験の成果の中でも、最も深く、それでいて過小評価されているものの一つだと思う。たとえば dynamical isometry [1] と、そのアイデアの発展は、非常に深い Transformer モデルの収束を達成するうえで重要な役割を果たした [2]
この記事と例を読んで、この人は機械学習を超えて現代社会全体にわたる最適化について並外れた直観を持っているのは明らかだと感じた。技術的背景を正当に評価し、意味や定義をめぐる言葉の応酬ではなく、議論をより高いレベルへ引き上げるべきだ。
要点は、急速な技術発展の陰に置かれた、きわめて人間的で共感的な行動の呼びかけにある: 「もしあなたが、親社会的でまったく新しい分野を生み出しうる研究アイデアを探している科学者なら、機械学習における過学習の帰結と、経済学・政治学・経営科学・オペレーションズリサーチなどさまざまな分野の問題の間に、形式的・数学的な橋を架けることを検討すべきだ」
[1] Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Networks
http://proceedings.mlr.press/v80/xiao18a/xiao18a.pdf
[2] ReZero is All You Need: Fast Convergence at Large Depth
https://arxiv.org/pdf/2003.04887
- タイミングもちょうど興味深い。数日前に生物学者 Olivier Hamant の仕事を知ったのだが、まさに同じ問題を提起していた。
  彼の中心的な主張は、非常に高い性能、すなわち既知の目標に対する有効性と効率性、そして大きなシステム変動に耐える高い強靭性は、物理的に両立しないというものだ。自然界にはこうした例が多く、一般的な認識とは異なり、進化は高い性能ではなく高い強靭性を最適化する。資源が豊富な世界では性能優先にも意味があったかもしれないが、いまや不安定性が標準となる、まったく別の時代に入りつつある。強靭になるには、性能の一部を取り戻すのではなく手放すしかなく、結局はそうせざるを得なくなるだろう。久しぶりに見た 複合危機 に対する、最も新鮮で興味深い解釈だ。
  https://books.google.co.uk/books/about/Tracts_N_50_Antidote_...
- 一般向けに言い換えると、機械学習を、社会における個人・機関のあいだの信号伝達の 数学的構造 になぞらえている。
  数学者を悩ませている問題、つまり過度の学習によってニューラルネットワークの汎化能力が低下し、近似できる関数が学習データに強く縛られてしまう機械学習の 過学習 が、もう一方も悩ませるだろうと見ているわけだ。
  要するに、社会システムやそのあいだの信号伝達が過度に発達すると、ある地点からは単純に悪化するだけの崩壊点が必ずある、という意味だ。個人的には、あらゆるシステムに完全に従ったときに何が起きるかを見るだけでも、多くの産業分野ではすでにその崩壊点をはるかに超えている可能性があると思う。
- ReZero のアイデアが好きだ。基本的には残差層に学習可能なパラメータ α を入れる方式だ。
  Deep Network | xi+1 = F(xi)
  Residual Network | xi+1 = xi + F(xi)
  Deep Network + Norm | xi+1 = Norm(F(xi))
  Residual Network + Pre-Norm | xi+1 = xi + F(Norm(xi))
  Residual Network + Post-Norm | xi+1 = Norm(xi + F(xi))
  ReZero | xi+1 = xi + αi F(xi)
  ただ、実際に使われているのは見たことがない。Gemma や Llama の論文でも、依然として layer normalization を使っているように見える。何か見落としているのだろうか?
- このアイデアが興味深いのは、たとえば経済学と機械学習の動作原理を結びつけられるなら、実行・修正・変形可能な コンピュータプログラム が、複雑なシステム相互作用についての測定可能なデータを直接与えてくれるからだ。
  現実はあまりに微妙で多層的なので、概念を形式的に検証するのは難しく、こうした相互作用はおおむねプラトン的なアイデアのようにしか存在してこなかった。経済学の下に、証明可能で正確な論理の部分集合があるという考えは、追求する価値の大きい強力なアイデアだ。
- このように反論の中身を実際には扱わず、カテゴリごと片づけてしまうのは、かなり 操作的なやり方 だ。
  感情への訴えや権威への依拠など、さまざまな論理的誤謬もあり、HN が志向する知的好奇心の精神にも合っていない。
この主張は、よく知られた グッドハートの法則、つまり測定値が目標になると、もはや良い測定値ではなくなるという法則に依拠している。
ただし問題を、測定の問題にすぎないものとして、つまり私たちが本当に気にしているものを測れないので代理指標を最適化する、という形でしか説明していない。私にはこれは過度に還元的な見方に思える。問題は測定だけでなく、人間の行動にもある。粒子と違って、人間は私たちが作るどんな制御システムであっても積極的に悪用しようとする。
これは「平和、愛、子犬」のようなものをうまく測れない、という程度よりはるかに深い問題だ。古典的なグッドハートの法則よりも、キャンベルの法則 [0] のほうがこれをよりよく捉えていると思う。「定量的な社会指標が社会的意思決定により多く使われるほど、その指標は腐敗の圧力により多くさらされ、監視しようとしていた社会的過程を歪め、腐敗させやすくなる」
提案されている緩和策である正則化と早期終了は、せいぜい間接的にしか対処しておらず、最悪の場合には望ましくない行動によって悪用される新たな特異点を生み出しかねない。
[0] https://en.wikipedia.org/wiki/Campbell%27s_law
- 「人間は私たちが作ったどんな制御システムでも積極的に悪用しようとする」というのは正しいが、それが可能なのは、制御システムが私たちの制御したいものだけを正確に制御できていないからだ。
  制御システムは私たちが本当に望んでいるものの不完全な代理にすぎず、これはグッドハートの法則において測定値が果たす役割と非常によく似ている。別の変種として 意図しない結果の法則 [0] もある。まだ発見されていない、より一般化された計算論的あるいは複雑系版があるのかもしれない。
  [0] https://www.sas.upenn.edu/~haroldfs/540/handouts/french/unin...
- そうするのは人間だけではなく、行為主体ならそうする。
  デリーで死んだコブラを多く持ってくるほど報酬を与えるAIエージェントに対して遺伝的アルゴリズムを作れば、すぐにコブラの飼育を始めたエージェントが最高性能を出すようになる気がする。人間の場合もAIの場合も、報酬関数がハックされたということだ。AIでは報酬関数の設計が悪かったと判断するが、人間の場合には行為主体たちが狡猾で道徳性が低く、システムを「悪用」したと判断する。
- 人間は自分が数字だけで評価されることを嫌い、ねじで締め上げるような圧力をかけるシステムには反抗し、操作しようとする。
  だからあの引用は非常によく当てはまっており、大きく外れている余地もあまりないように思える。
- こうした「法則」は近似であり、不完全な還元でもある。
  どれが有用か、あるいは説明力があるかは具体的な事例に依存する。機械学習の最適化、ソーシャルメディアのアルゴリズム最適化、標準化試験で教育システムを最適化することは、それぞれ異なる。
  こうした多様な状況に正確に当てはまる完璧な抽象化はなく、そのような精密さも必要ない。どこで問題が起きるかについての直観が得られればそれで十分だ。
スウェーデンでは、ここ20年ほどの間にこれが 社会問題 になっている。
1: 医療の効率を一次診療医の「完了した作業」で測ることで、仕組みは簡単な症例を数多く処理するよう最適化された。だから医師たちはしばしば表面的な確認だけを行い、統計的に妥当な薬、たとえばアスピリンや抗生物質を出して帰宅させるか、複雑そうなら専門医に回す。
問題は、効率化のせいで一次診療医が減り、事実上の組立ライン労働者のようになってしまい、患者との個人的な接触が失われて、何かがおかしいという兆候を捉えにくくなったことだ。結果として、がんのようなものが手遅れになるまで診断されないことが多く、専門のがん治療が改善していても、すでにどうにもならない場合がよくある。
2: 鉄道システムは民営化され、輸送される貨物量を見る限りでは大成功だった可能性が高い。しかし遅延した列車を取り戻す余裕や、基本的な保守以上のことを行う時間がシステム内にほとんどなく、遅延が頻発し、最終的にはより大きな問題につながる。
- Steve Jobs の言葉どおり、例は至るところにある。
  「会社が十分に大きくなると、最初の成功を複製したがる。誰もがその最初の成功がどう作られたか、その プロセス を考える。そこでそのプロセスを会社全体に複製する。ほどなくして人々は、プロセスこそが中身なのだと取り違えるようになる」
  小さな会社から世界最大の政府まで、そのまま当てはまる。ほとんどは自分たちの中身を忘れてしまっている。
- アメリカの鉄道と医療産業が直面している最大の問題がその程度であってくれればと思う。
待ち行列理論にも関連する法則がある。利用率が100%に近づくと待ち時間は無限大に発散する。
プロセス、機械、エンジニアにある程度の余裕がなければ、ある種の作業は永遠に待たされることになる。
- 昔、都市は郊外や農村よりも資源を非常に効率的に使うという文章を読んだ記憶がある。
  待ち時間についてのこの話を思い出すと、都市がなぜあれほど不快なのか今ならわかる。絶え間ない 資源競合 のせいだ。
- 以前工場で働いていたが、計画段階での目標利用率は 80% だった。
  利用率を過大に見積もると金を無駄にし、過小に見積もると「重要ではない」仕事が巨大な待ち行列として積み上がり始める。
- 最適化基準に ロバスト性 の尺度を入れることはできる。
  予想外の事態に対応できるだけの余裕を利用率に持たせるよう、明示的に最適化することができる。たとえばシステム負荷に優先順位を付ければ、暇なときにシステムを遊ばせる必要はなく、緊急時には低優先度の負荷を捨てて余裕を作れる。
  この記事が言いたいことは理解できるが、だからといって最適化をそんなに簡単に放棄すべきではない。
- 100%効率的なシステム には回復力がないと感じる。
  下位システムの小さな撹乱ですら大きな崩壊につながる。COVID-19 によるサプライチェーン崩壊の際に、その極端な例を見た。自動車メーカーはほぼ100%のジャストインタイム生産体制を構築していたため、チップ不足を吸収できず、回復には何年もかかった。
  実験の余地もなくなる。どんな実験もシステム内部ではなく、外部でしかできなくなる。
- そのとおりだ。いくつもの職場やチームで働いてきたが、P0 でない仕事は実質的に永遠に処理されなかった。
運動生理学にも、この近似法則の例がある
一般人にとっては、体力の良い代理指標が多くある。短距離走、その場跳び、スクワット、クリーン&ジャークなどを鍛えることができる。より速く走り、より高く跳び、より重い重量でスクワットすることは、いずれも体力が伸び、トレーニングが成功したことの指標である
第一に、トレーニング方法がより一般的であるほど、指標の意味は大きい。たとえば体力の尺度が「車を坂の上まで押せるか」で、トレーニング方法が短距離走と水泳なら、より重い車を押せることは成功の強い指標になる。逆に、トレーニング方法が「車押しの練習」なら、同じ向上が同じ水準の体力向上を意味するわけではない
第二に、クリーン&ジャークの選手のようにアスリートがより特化するほど、成績の向上は一般的な体力を表しにくくなる。ゼロから趣味のウエイトリフティング水準に至る過程には、全般的な筋力と筋量の増加が含まれるが、大学選手からオリンピック水準へ進む過程では、通常は他の活動にあまり転移しない高度に特化した体力特性が求められる
スポーツで言う 基礎体力とピーク体力 も似た比喩かもしれない。持続不可能な最高性能を偶然鍛えてしまうのも、過剰最適化の罠である。「線が上がる」ことだけを盲目的に追えば起こりうるし、見事な最適化は実は局所最大値に閉じ込めるだけかもしれない。生物学だけでなく、機械学習の最適化や社会現象にも多くの類比があると思う
- クリーン&ジャーク は、ほとんど「完全な」動作の一つと見なしてよいほどである
  特にスクワットのバリエーションまで混ぜるならなおさらだ。だから最良の例ではないかもしれない。自分の体重より重い重量でクリーン&ジャークを何度もできて、人間の体力の意味ある大半の側面において怪物ではない人を私は知らない
  人間の身体は一つの機械であり、ホルモン反応は全身的である。持久力と筋力はスペクトラムだが、身体全体が一緒についてくる
- それは「一般体力」が厳密な尺度ではないという兆候により近い
  ある程度までは「身体能力」というぼんやりした概念で問題ないが、その先では能力向上が課題ごとに特化し、他の課題へ転移しなくなるため、意味を失う
だから GDP に集中するのは好きではない。四半期ごとの生活満足度と楽観性の調査のほうが、より良い尺度だと思う
GDPについて言えば、私の車が故障して修理すればGDPは増える。親が家にいて子どもを育てればGDPは下がる。私が自分で家を掃除してもGDPは下がる
失業率も粗い指標だ。その仕事が人々の望む仕事なのか、それとも嫌な仕事を無理やりやらされていると感じているのかは分からない
- GDPが粗い尺度だという点に大きく反対するわけではなく、考えを整理しているところだ
  個人の生活満足度や楽観性が、国民国家の経済によって、それも政府がそれを最適化対象にするほど大きく左右されるべきだとは思わない。政府の仕事は、世界の残りを抑圧したり地球を破壊したりせずに、安全保障、繁栄、機会の条件を整えることだ
  その中で満足のいく人生を見つけるのは私の役割であり、そうした人生はまったく異なる経済・社会構造の中でも可能である。同様に、すべての市民に普遍的な満足を与える条件はおそらく存在しないだろう。だとすれば、生活満足度と楽観性のどの要約統計を最適化すべきなのだろうか?
- 核心は、何を測定しても変わらないという点にある
- 機械学習では何千もの数量のベクトルを扱うのに、社会や経済を測るときには数字を一つか数個しか使わないのは皮肉だ
  ニュース、政治家、フォーラムなどの一般的な言説は、いつもいくつかの尺度だけをめぐって大きく単純化される。何千もの尺度を前提にした言説は、簡単に伝えるには複雑すぎる
  いつか大半の人が、尺度の数が少ないほど、何かを隠す 単純化 である可能性が高いことを暗黙に認めてほしい。たとえば「Xは億万長者だから賢い」「X国家はGDPが高いからGDPが低いY国家より優れている」といった具合だ
- 同意するし、これは資本主義全般にも当てはまる
  過去の失敗した中央計画の代替案と、資本主義に代わるある提案のおおまかな概要はここにある:
  https://jacobin.com/2019/03/sam-gindin-socialist-planning-mo...
  関連箇所を見ると、社会主義の礎は計画と労働者統制だが、野心的すぎる計画はソ連型のように失敗し、過度に自律的な職場はユーゴスラビア型のように失敗した。包括的な計画は効果的でも望ましくもなく、職場集団への分権化は、社会的利益を識別するには経済的に分断されすぎており、計画に影響を与えるには政治的にも分断されすぎている。だからこそ、国家、計画、職場、そしてそれらの関係をどう変えるかが、この難題を解く鍵になる
  資本主義でも社会主義でも、運営単位は職場である。資本主義では競争する資本単位の一部となり、社会主義では自己拡張のための私的単位が排除されるため、職場集団は共通の技術、産出物、サービス、過去の歴史などに応じて実用的に構成された「部門」に入る。これらの部門が経済計画の中核単位となり、伝統的には鉱業・機械・医療・教育・交通のような国家省庁の中にあった
  ここでの急進的な革新は、省庁の計画権限と能力を国家の外の市民社会へ移すことだ。従来の省庁は憲法上承認されつつも国家の外に置かれ、各部門の職場代表が選出して運営する 部門評議会 に再編される。中央計画委員会は依然として国家の優先順位に従って各部門に資金を配分するが、職場の権力が部門レベルで結集すれば、国家と労働者のあいだの力の均衡を変え、市場の問題を社会主義により適したやり方で扱えるようになる
  核心は、不平等を拡大するインセンティブと平等主義的な投資バイアスの均衡にある。各職場集団が稼いだ剰余は、共同または個人の消費を増やすのに使えるが、再投資には使えない。全国的な優先順位は民主的な過程と圧力を通じて中央計画レベルで決まり、部門別の投資配分へと翻訳される。部門評議会は担当する職場集団に投資資金を配るが、市場型の決定と違って、最も生産的な職場をさらに優遇して恒久的な格差を再生産するのではなく、弱い集団の生産性を優れた集団に近づけることを主要な基準とする
  Hayekの主張とは逆に、情報を体系的に共有できないよう妨げているのは、むしろ資本主義である。私有財産と利潤最大化の帰結として、情報は競争資産であるため隠すべきものになる。これに対して社会主義では、情報の積極的な共有が機能の必須条件であり、それを部門評議会の責務として制度化する
この著者の名前をどこで聞いたのか思い出そうとしていた
2015年に最初の生成拡散モデルを発明した人だった
https://arxiv.org/abs/1503.03585
- 私にとっては、Stephan Hoyer、Sam Greydanusと共著した2019年の気の利いた論文で記憶に残っている
  最適化しようとする構造を記述する物理モデルのストア・モディファイア・チューナーに制約されたニューラルネットワークを使って構造最適化を行う内容だ: https://arxiv.org/abs/1909.04240
  とても興味深いアプローチで、論文も非常によく書かれている
チェーンレストランに行くことを思い出す
すべてがフォーカスグループを通して最適化されていて、楽しい食事のための過学習した代理指標のように感じられる。私が訪れて利益を引き出されるよう最適化された露骨な機械の中にいるようで、レストランであることはほとんど副次的に感じられる
「こんにちは！私の名前はTracyです！今夜お客様を担当するサーバーです！」と言いながら、紙のテーブルクロスにクレヨンで自分の名前を逆さに完璧に書くような場面のことだ。ここは従業員の個性を少し再調整したほうがよさそうだ
マネージャーが業務プロセスを過剰最適化しようとするときにも当てはまると思う
結局、創造的な人たちは興味を失い、仕事は耐えがたいものになる。職場にも人生にも少しの混沌が必要だと思う
- やりたくない部分を過度に最適化しようとして、多くのサイドプロジェクトをやりたい気持ちを自分で殺してしまいがちだ
  ただ不快な部分を片づけて先へ進めばいい。それでも少なくとも、誰かがお金を払って私を渦に突き落としているわけではない
地元の大型ホームセンターでこの法則の例を見た
10年ほど前、その店は盗難防止用の施錠ケージを設置した。最初は高価な商品だけを入れていて、少し不便ではあったがひどくはなかった。200ドルを超える高級電動工具を買う客なら、5分ほど待つことはたいてい受け入れられる
ところが数年後、ほぼ確実にデータ駆動と思われる変化が起きた。突然、どの商品を施錠しどの商品を開放しておくのかに、見て取れる論理がなくなった。今では500ドルの診断ツールが棚にそのまま置かれている一方で、5ドルの電球が鍵の後ろにあることもある
おそらく、盗難による累積損失が大きい順にデータベースを並べ替えた結果なのだろう。つまり、ホームセンターに最も大きな損失をもたらす商品を鍵の中に入れているのだ
その結果、店の雰囲気は「つまようじ一箱すら盗まないと客を信用できないほど利益に執着している場所」のように読めて、客の立場では店員を待ってケージを開けてもらう価値がないことが多い
3ドルの石けん数個の盗難を防げたとしても、その最適化が純利益に役立ったのかは疑わしい
- 薬局でガラスケースを開けてくれる人を探すより、Amazonで買うほうがずっと楽だ
  日用品までガラスケースに入れている薬局は、たいてい人手も足りていない
- 「盗難のせいでホームセンターに累積損失を最も多く与える商品を鍵にかける」という話と、「その最適化が純利益に役立ったのか疑わしい」という話は、直接的な矛盾のようにも見える
  それによって人々がその店に行かなくなり、その損失が盗難減少分を圧倒すると本当に考えない限りはそうだ。しかも人々が行かなくなったとしても、競合する地域の大型ホームセンターもおそらく同じことをしているだろう。小売の利益率はたいてい大きくないことも覚えておくべきだ。商品が1つ盗まれたら、その損失を取り戻すためにあといくつ売らなければならないだろう？一部の客がAmazonに流れたとしても、盗難を避けるほうがなお得かもしれない
  実際には、盗難減少に最も大きな影響を与えた可能性のほうがずっと高い。「見て取れる論理」が見えないのは、そういうことに経験がないからかもしれない。盗難は商品の価格よりも再販しやすさに左右されることが多い。高価なニッチ電動工具1台は転売に時間がかかるが、洗剤や替え刃はその日のうちに大量にさばける。人々は電球よりも洗剤や替え刃をはるかによく使う
  不便なのが嫌だというのはわかる。でも非難は店ではなく、泥棒や盗難を生む要因に向けるべきだと思う