Census Bureauが公開する統計製品でノイズ注入を禁止
(desfontain.es)- 機密データセットから公開統計を作る際に使われるノイズ注入は、元データの個人情報を隠しつつ統計の有用性を維持する開示回避の手法である
- 米商務省の命令は、Census BureauとBureau of Economic Analysisのすべての統計製品においてノイズ注入を禁止しており、差分プライバシーを直接標的にしている
- Census Bureauは1990〜2010年の10年ごとの国勢調査で主にスワッピングを使っていたが、公開統計から個人記録を再構成しやすい問題が明らかになった後、2020年国勢調査で差分プライバシーを採用した
- 差分プライバシーは寄与度制限と精密に調整されたノイズ追加を組み合わせ、近いプライバシー水準でより高い有用性を提供する
- ノイズを取り除くと、今後の統計公開は過去より大幅に使いにくくなるか、きわめて安全でないデータになる可能性がある
背景
- 統計製品とは、機密データセットから公開されるさまざまな数値であり、そのデータセットに機密情報が含まれる場合、公開される数値がその情報を明らかにしてはならない
- U.S. Censusは代表的な例で、統計は公開される一方、米国居住者が記入した個別の調査票の内容は機密のまま維持されなければならない
- 統計分野で元データのプライバシーを保護しながら有用な統計を公開する技法は、開示回避と呼ばれる
- 開示回避の手法には、一定基準を満たさないデータを除去する抑制、属性の精度を下げる一般化、一部のレコードをランダムに除去するサンプリングがある
- 開示回避の手法には、異なるレコード間で属性をランダムに入れ替えるスワッピング、個人1人の最大影響を制限する寄与度制限、統計にランダムな数値を加えるノイズ追加もある
-
差分プライバシーと2020年国勢調査
- いくつかの手法を組み合わせることで差分プライバシーを達成でき、科学者の間ではプライバシー保護のゴールドスタンダードとして広く考えられている
- 差分プライバシーは通常、寄与度制限と慎重に調整されたノイズ追加の組み合わせに依存する
- Census Bureauは1990年から2010年までの10年ごとの国勢調査で主にスワッピングを使用していた
- その後、スワッピングが非常に安全でなく、公開統計だけで個人記録を再構成しやすいことを認識した
- Bureauは連邦法により当該記録を機密に保つ義務があるため、いくつかの代替策を試し、攻撃を防ぎつつ統計の有用性を最もよく維持した方式として2020年国勢調査に差分プライバシーを採用した
-
有用性低下と反発
- 差分プライバシーが選ばれたのは数学的に優雅だからではなく、攻撃を緩和する複数の選択肢の中でデータの有用性を最も多く保てたからである
- 正確なプライバシーパラメータも、強力な証明保証を与えるからではなく、許容可能なプライバシー保護水準に達しつつデータの有用性を最大化するために選ばれた
- 新たに見つかったプライバシー上の制約の下で有用性を最も多く保てたというのは、2010年国勢調査と同程度の有用性を保てたという意味ではなかった
- 数値は以前より不正確になり、その不正確さははるかに透明になって無視しにくくなった
- 人口学者や社会科学者は、自分たちが扱うデータがノイズを含むデータであることをもはや無視できなくなり、このデータを概念化し扱う方法において大きな転換が必要になった
- Censusデータを実際に個人記録の再構成に使っていた人々は、もはやそれができなくなり、人口学者たちはそれが一般的な慣行だったと認めている
- ゲリマンダリングの取り組みの一環として政治実務家がこうした再構成を行っていたことも、公然の秘密である
命令の内容
- 行政府は、ノイズ注入はもはや許容可能な開示回避手法ではないと判断した
- 命令は差分プライバシーを明確に標的にしているが、ランダム性を伴う他の手法にも影響するとみられる
- 命令文は、一般化を常に優先すべきであり、抑制は「最後の手段」としてのみ使うべきだと明記している
- なぜ命令がそれほど具体的なのかはわからない
- 命令は「憲法、法律、規制、またはその他の法的条項と矛盾するものと解釈されてはならない」と慎重に述べており、当該統計製品をめぐる機密保持義務は引き続き適用される
実際の影響
- 結果は、有用性かプライバシー、あるいはその両方にとって深刻になりうる
- 今後の統計公開は、過去の公開物より役に立たないものになるか、信じがたいほど安全でないものになる可能性がある
- 開示回避のツールボックスから有用な道具を取り除けば、プライバシーと有用性のあいだのトレードオフは常により苦しいものになる
- この研究分野の目的は、プライバシーリスクをよりよく理解し定量化し、有用性を保ちながらリスクを緩和するよりよい道具を開発することにある
-
差分プライバシーの位置づけ
- 統計公開において差分プライバシーは、現時点で利用できる最良の手法である
- 差分プライバシーはトレードオフをより細かく定量化する方法を提供し、近いプライバシー水準で競合手法より多くのデータ有用性を引き出す
- 差分プライバシーを取り除けば、近いプライバシー水準で有用性がより低い手法か、同じ有用性でプライバシーがより悪い手法しか残らない
- 競合手法もノイズ追加に依存している
-
他の手法もランダム性を使う
- 他の統計機関で使われるCell Key methodは統計にノイズを加える
- Censusが1990年から2010年まで使用していたスワッピングも、過程にランダム性を注入する
- サンプリングは統計業務全般で広く使われている
- 代入)も技術的にはデータにノイズを加える
-
一般化と抑制の限界
- 一般化と抑制は非常に鈍い道具である
- 一般化と抑制は、統計がすでに非常に粗く、公開される統計数が多くない状況でしか機能しない
- U.S. Censusのように小規模集団に関する統計が多い複雑なデータ製品では、一般化と抑制はデータの有用性を完全に壊すか、プライバシー攻撃に非常に弱くなる
- 有用性の破壊は特に少数集団で目立つ
-
ノイズが攻撃を難しくする理由
- 統計公開に対するプライバシー攻撃は、連立方程式を解く問題に近い
- すべての統計が完全に正確だと確信できるとき、この作業ははるかに容易になる
- ノイズは攻撃者に確率計算、不確実性の定量化、基準線の慎重な検討を強いる
- ランダム性は、正式な保証がなくても開示回避に有用であり、攻撃をはるかに難しくする
- ランダム性を取り除けば、攻撃は些細なものになる
なぜこんなことが起きるのか
- 動機はわからない
- 目的が、今後のゲリマンダリングの取り組みを助けるために、U.S. Censusに実際の再識別を可能にする統計の公開を強いることなのかはわからない
- 逆に、研究者が人口内の不公正な格差を可視化できないよう、有用な人口統計データの公開を妨げることが目的なのかもわからない
- Hanlon's razorは別の解釈を与える
- 統計データの公開には根本的なプライバシーと有用性のトレードオフがあり、このトレードオフは厄介な問題である
- 多くの統計を公開しても高いプライバシーリスクが自動的に伴わないなら、状況ははるかに簡単になる
- 差分プライバシーはこのトレードオフを明示的に可視化し、そのため無視できなくする
- 差分プライバシーの禁止は、問題が存在しないふりをして、問題が消えてくれることを願うやり方なのかもしれない
1件のコメント
Hacker Newsの意見
前回の国勢調査で調査員として働いたが、地域社会の信頼はすでに低く、興味深い出会いも多かった。
親しみやすい顔でかなり踏み込んだデータを集めながらも、そのデータは責任を持って使われ、管理されると心から信じていた。
いまや機密性の高い政府データの武器化・収益化を防いでいた防火壁が崩れた状況で、2030年に戸別訪問する人たちも気の毒だし、自分に不利益となりうる情報を自発的に提供する人たちはなおさら気の毒だ。
「高価な国勢調査なんて人数だけ数えればいい」という反応も妙に感じる。収集データは共通理解の重要なベースラインであり、今後その品質にとって良くないことになるだろう。
ちなみに割り当てられた地域は主に無回答世帯だったので、自然と自分の地域の人々は政府を嫌っているか、妙に威圧的なビラを無視しているか、最近引っ越してきて調査期間中の居住者を知らないように見えた。
数万人の回答者に基づく全国世論調査から小さな地域社会の調査まで、すべてがこれに依存している。
最も多様な参加を得た国勢調査の結果は米国にほぼ無限の見返りをもたらし、全国紙から地方の郡まで誰にとっても利益になる。
最も小さな地域社会が国勢調査のプライバシー保護に対する残された信頼さえ失えば、こうしたあらゆる面で最も大きな損失を被ることになる。
そしてこのデータを悪用したいと公然と言う政党に人々が引き寄せられ続けているのも気が滅入る。
政府への不信を大きく引き起こし、人々に調査へ回答してもらうのはもともと難しかった。
一般の人がなぜ Census Bureau が自分のデータを本当に安全に守ると信じられるのか、という話だ。
法律や憲法がどうであれ、どこかの機関で働いていれば結局は政府に見える。回答率は下がり続け、いまや大統領は経済統計まで攻撃している。
シニカルに見れば、統計機関を縮小し続け、統計をさらに使い物にならなくしていくのだろう。今回の政策変更もその方向で、最終的には民間業界に渡そうとするはずだ。
しかし民間業界には、政府が現場で行っていることはできない。
正確な情報があってこそ改善計画を立て、皆の生活をより良くできる。
「ただ人数を数えればいい」という態度は、最近の多くの人の考え方を興味深く表している。
生活をより良くしたいと思っていないか、どうすればそうできるのか想像すらできないように見える。本当に悲しいことだ。
今週のテキサス州共和党州大会では、綱領草案に差分プライバシーへの反対を盛り込む修正案を入れようとしていた。
国勢調査に関わったという誰かの例として、橋の下のホームレス1人が差分プライバシーのせいで5人になりうるので、常識的に見てばかげていると正当化していたという。
可決されたかは分からないが、この種のことを押し進める草の根の圧力はああいうものだ。
かなり悲しいことだと思う。理想的には国家は、いま実在する人々の構成を把握できるべきで、そうしてこそ私たちが共同で運営する組織について良い判断を下せる。
データ収集インフラを意図的に傷つけるのは、後で後悔する誤りだと思う。
米国の成功のかなりの部分は、細かなデータを扱う優れた制度から来ていたと思う。結果に合わせて政策をより速く調整できたからだ。
人々があらゆる国家能力を縮小しようとする理由は分かる。政府が自分たちの反対者で埋め尽くされていて、その能力が自分たちに向けられると感じているからだ。
しかし相対的な力が弱くなるほど、こうした慣性に打ち勝つ能力も低下し、政府はより無能になり、やがて生活は悪化し始める。
住宅単位データが直ちに必要というわけではないが、国勢調査ブロックを適切な選挙区に配置する場合などは例外かもしれない。それでも、どの集計単位であれ可能な限り良い情報を使うべきだ。
ただ政府をより愚かにして、後になって正しいことをしようとしても、効果的な判断を下すための情報がなくてできなくするだけだ。
連邦は集計データだけ持てばよい。
これは「あらゆる」国家能力の問題ではなく、国家は必要な仕事を遂行するための絶対最小限の能力だけを持つべきだ。
たとえば人種情報を収集することは絶対に必要ではないので、してはならない。
将来、政府が反対者で満たされる可能性があるからだ。さらに言えば、国家主体がもたらした最大の害は、意図的な悪意よりも「助けようとする」試みから一貫して生じてきた。
正確な国勢調査を重要だと考えるなら、むしろ歓迎すべきだ。
国勢調査には、何をするにしても一定レベルの信頼が前提になる。
このデータが詐欺や金融詐欺、そのほかの悪用に使えるような形で特定されないという信頼だ。
ところが NY では住宅売買記録が公開されており、その副作用として多くのモーゲージ会社が請求書を装って郵便物を送ってくる。
差分プライバシーは絶対に必要であり、社会科学者が個人レベルでデータを再構成できないのは意図された結果だ。
ほとんどの目的にはマクロな記述で十分であり、それ以上を求めるのは監視国家を求めるのと同じだ。
ドイツではモーゲージやそれを保有する銀行が熱いジャガイモのように別のカモへ売り飛ばされることは一般的ではないので、そういう手紙が来たらすぐに疑われるだろう。
データセットでは禁止し、分析段階で入れればよい。望む方式のノイズを選べる。
ここでの政治的含意はよく分からないが、あるレベルでは「この人・世帯は回答を拒否した」を含む実際の基準値が必要になる。
ただし元データを公開するのは、国家安全保障の観点から見ても自分の足を撃つようなものであり、それ以外にもしてはいけない理由が多い。
これをまずい形でやる方法は非常に多く、だからこそ差分プライバシーにはあれほど多くの分析が投入されてきた。
差分プライバシーがこのトレードオフを明示的にして無視できなくするというより、二つの目標のうち一方が他方より価値が高いからといって犠牲にしてはならない、という話なのかもしれない。
ここで「全部公開すべきだ」と言う反応は、悪い意味で一次元的な思考で驚かされる。
国勢調査は質問をするだけのものだ。
さまざまな属性を持つ人々のデータを公開して武器化し始めれば、人々は単に嘘をつくか答えなくなる。
そうなると残るのは、ないより悪いデータだ。人々がその悪いデータに基づいて行動しようとするからだ。
少し前に別の国で少なくとも一度は起きたことなので、懸念は過剰反応ではないと思う。
最も明白な例は、Census Bureauが第二次世界大戦中に日系人の名簿を作って収容に使ったことだ。
今の本当の推進力は、人々の投票権を奪うための名簿作りにあるように見える。
国勢調査は代表性の決定に必要な情報を提供するために存在する。残りは付随機能だ。
郡や選挙区レベルではデータを持てても、解像度が上がるほどデータを削って、近隣や街区レベルでは人口だけ残せばよい。
ある街区の住民の人種、民族、社会経済的背景を知ることは、彼らを差別するのにしか役立たない。
私は国勢調査員が来るまで待って、自分の住居に何人住んでいるかだけを伝える。
それは適切な選挙代表のために必要であり、それ以外にはまったく必要ない。
こうした内容を整合させるのはあまりに難しい。
2020年の国勢調査で差分プライバシーを採用したと言いながら、このフィルターを一つ外すだけで有用性やプライバシー、あるいはその両方に「ひどい結果」が生じるとしている。
しかし国勢調査は何百年も行われてきて問題なく、前回の国勢調査でだけプライバシー要素が追加された。
そのうち一つを取り除いたら突然ひどい状況になるというのは妙だ。以前にはそのようなプライバシー機能はなかったのだから、実際には何百年前よりずっと良い状態なのではないかと思う。
だから感情的に誇張された問題のように感じられる。
昔はコストのせいで不可能だったプライバシー攻撃が、今では二束三文で可能になっている。
また指摘されているように、人々は国勢調査データを選挙区割り操作にすでに使ってきたのだから、こうした攻撃は現実であり、ずっと以前から進行してきた。
過去には個人記録を再構成することは、少なくとも大規模には現実的ではないと考えられた。今はそうは言えない。
4桁のパスワードは数百年前なら安全だったかもしれないが、今日では同じ理由でセキュリティ上の責任になる。
今日データの再識別に使われる多くの手法は、以前には使えなかった計算能力を必要とする。
可能だったとしても、必要資源が規模を制限していた。統計学の学位を持つ者として言っている。
さらに接続性もある。インターネット、ソーシャルメディア、ウェブ追跡、ハッキングによって、照合できるデータソースがはるかに増えた。
1970〜80年代には、米国人の記録の痕跡は今より劇的に少なかった。
ただ、それ以前の保護機能は強固ではなく破られ得たため、より強い機能に置き換えられたのだ。
1990年はパーソナルコンピュータが普及し、個人が使える計算能力が爆発的に増えていた時期で、その頃から国勢調査が公開したデータから個人情報を切り離して取り出せるようになった。
だからその時に問題が生じたのだ。誇張された問題ではない。
ある特定のヨーロッパ諸国の出身者の立場からすると、国勢調査でどんな回答が問題を引き起こすかは分からない。
「宗教は何か」は完全に無害に見えるが、1940年代にある外国の占領者がその回答を個人に結び付けられるようになると、事後的に致命的な回答になった。
2020年の質問は、4月1日時点でこの家・アパート・移動式住宅に何人が住んでいるか、または滞在していたか、記入漏れの追加人数がいるか、住居の形態は何か、電話番号、1番の人の名前、性別、年齢と生年月日、ヒスパニック・ラテン系・スペイン系かどうか、人種、という程度だった。
嘘を防ぐものも特にない。
誰も、宗教的信念や宗教団体への加入に関する情報の開示を強制されてはならない。
https://www.congress.gov/94/statute/STATUTE-90/STATUTE-90-Pg...
ユダヤ人名簿も、いつか何かをする時に役立つかもしれないとして作られ、ドイツ人はそれを見つけて大いに喜んだ。
米国が人々に認識された出自、たとえばAAPI、AA、Latinoなどを尋ねることに執着するのは、奇妙というレベルを超えて露骨に危険だ。
こうした質問はしてはいけないし、名前と一緒に絶対に記録してはいけない。
幸い今ではデータブローカーから買ってPalantirに標的化させれば済むので、彼らにとってはむしろ簡単になった。
差分プライバシーがトレードオフを明示的にするというのは、むしろ逆だと思う。
差分プライバシーのような手法は、この分野を呼吸するように扱う少数の専門家を除けば、トレードオフが存在するという事実を隠してしまう。
この決定を擁護できるほど十分に理解しているわけではないが、実際にトレードオフがあるのなら、こうした手法にアクセスできなくなったとき、統計学者でない人たちもそのトレードオフに向き合うことになるのではないかと思う。
公衆に関するデータが結果を偽装しなければならないほど危険なら、そもそも収集すべきでないデータなのかもしれない。
人々の非公開データは、意図せず定期的に公開されている。Netflixの視聴履歴や医療記録が代表的な例だ。
人は漏れ出る情報量を一貫して過小評価するので、トレードオフを適切に判断できない。
だからこそ、安全な量の情報だけが漏れるよう強制するやり方が正しい。
データを共有したり収集したりしないほうがよい場合もあるだろうが、このデータには明確な価値があるので、保存して公開する最適量が0というわけではない。
個人的には、テック企業において大きな組織としてのデータサイエンスが影響力を失った大きな理由の1つは、データサイエンスチームをデータの門番のように扱う傾向にあったと思う。
統計的思考の責任を外注した結果、1人の人間が、周囲の人たちがきちんと理解する必要もないまま、トレードオフを先に決めてしまうという奇妙な権力感を持つようになった。
その理屈だと、誰もどんな理由でも絶対に住所を収集してはいけないことになる。
どんな文脈でも個人識別情報をやり取りしたり収集したりできないのなら、社会はどうやって成り立つのか。
匿名化とセキュリティは重要で、多くの重要な機能を可能にしている。
潜在的に危険な情報を絶対に提供も収集もしない世界で、どうやって郵便物を受け取るのか?