MercorでAI契約者4万人分の音声サンプル4TBが流出
(app.oravys.com)- 音声バイオメトリクスと政府発行の身分証が1行のデータとして結び付けられた大規模流出が発生し、流出したサンプルのインデックス基準で4万人を超えるAI契約者が含まれていた
- 契約者1人あたり平均2〜5分のクリーンな録音が含まれており、約15秒の参照音声だけでも可能な音声クローンの閾値を大きく上回る
- 流出データは音声クローンと検証済みの身元情報を同時に提供するため、銀行の音声認証回避、職場を狙ったvishing、ディープフェイクのビデオ通話、保険請求詐欺、家族になりすます緊急電話に悪用されうる
- Mercorや2025年まで運営されていた他のAI学習仲介業者に音声サンプルをアップロードしていたなら、これを漏えいしたパスワードのように扱うべきであり、公開音声の削除、コードワードの設定、音声プリントの再登録と無効化が必要になる
- 疑わしい音声はフォレンジック検査でコーデック不一致、呼吸パターン、マイクロジッター、フォルマント軌跡、室内音響の一貫性、プロソディと発話速度の異常を確認する必要があり、音声認証全体の脆弱性がさらに大きく浮き彫りになっている
侵害の概要
- 2026年4月4日、Lapsus$がMercorをリークサイトに掲載し、流出規模は約4TBと伝えられている
- 流出アーカイブには音声バイオメトリクスと同一人物の政府発行の身分証が一緒に束ねられており、流出したサンプルのインデックス基準で4万人を超える契約者が含まれていた
- 対象者は、AI学習向けのデータラベリング、読み上げ文の録音、検証通話の実施のために登録した契約者だった
- 掲載から10日以内に契約者5件の訴訟が提起され、音声プリントを「訓練データ」として収集しつつ、これが永続的な生体識別子である点を明確に知らせていなかったと主張されている
今回の流出が異なる理由
- 過去10年間の音声流出は、おおむね身元との結び付きが弱い通話録音の流出か、音声を含まない身分証・セルフィー流出に分かれていた
- Mercorの登録手続きは、パスポートまたは運転免許証のスキャン、ウェブカメラのセルフィー、静かな環境でのスクリプト読み上げ音声録音を1行のデータとして結合していた
- この結合は、合成音声クローンサービスが入力として必要とする形式と正確に一致している
- 2026年2月のWall Street Journal報道によれば、市販ツールは高品質な音声クローンに約15秒のクリーンな参照音声しか必要としない
- Mercorの録音は契約者1人あたり平均2〜5分のスタジオ級音声と伝えられており、複製の閾値を大きく超えている
- ここに検証済みの身分証書類が組み合わさると、攻撃者は音声クローンと、それを実際の攻撃に投入するための資格情報の両方を手にすることになる
盗まれた音声データで可能な攻撃
-
銀行認証の回避
- 複数の米英銀行はいまなお音声プリント照合を二要素の一つとして扱っている
- 口座保有者の音声クローンがチャレンジフレーズを読み上げれば音声ゲートを通過でき、残るのは同じ流出データセットから得られうる知識ベース質問だけになる
-
職場を狙ったvishing
- 人事や財務部門に従業員を装って電話し、給与振込先の変更、送金依頼、ワークステーションのロック解除を試みることができる
- Krebs on Securityのアーカイブには、2023年以降に確認された事例が24件以上蓄積されている
-
ディープフェイクのビデオ通話
- 2024年、Arupでは複数人物によるディープフェイクのビデオ通話の後、財務担当者が約2,500万ドルを送金した
- 当時の音声と顔は公開映像から作られたが、Mercorの流出物には公開映像より優れたスタジオ音声と検証済み身分証が同時に含まれている
-
保険請求詐欺
- Pindropは、2025年を通じて保険コールセンターを狙った合成音声攻撃が前年比475%増だったと集計している
- 電話で処理される自動車、生命、障害の請求が主要な標的だ
-
家族になりすます緊急電話詐欺
- FBIインターネット犯罪苦情センターは、2026年通年で60歳以上の被害者の損失を23億ドルと集計している
- 最も急増したカテゴリーは、親族が危険な状態にあると主張する緊急ななりすまし電話だった
音声悪用の確認と即時対応
- Mercorや2025年まで運営されていた他のAI学習仲介業者に音声サンプルを上げたことがあるなら、漏えいしたパスワードのように扱うべきだ
- 音声そのものは交換できないが、音声で開けられる認証手段は変えられる
-
公開音声の痕跡を点検
- YouTube、ポッドキャストディレクトリ、過去のZoom録画で公開インデックスされている音声サンプルを探す必要がある
- 下げられる公開音声はできるだけ削除したほうがよい
- 公開参照音声が少ないほど、攻撃者のクローンの堅牢性も下がる
-
家族・金融連絡先と口頭コードワードを設定
- 録音されたこともチャットに入力されたこともないフレーズを選ぶべきだ
- 資金処理を代行する人たちに事前共有しておく必要がある
- 送金を求める通話では、コードワードを必須手順にしておくほうが安全だ
-
音声プリントが使われる場所を再登録
- Google Voice Match、Amazon Alexa Voice ID、Apple personal voice、銀行の音声プリント登録は削除して置き換え可能だ
- 流出サンプルとは異なる音響環境で新たに録音して再登録するのが望ましい
-
銀行の音声プリント認証を無効化
- 書面で音声プリントを認証要素から外してほしいと依頼できる
- アプリトークンやハードウェアキーと知識ベース要素を組み合わせた多要素認証を求めるほうがよい
- 多くの銀行は、音声を主要な認証要素から除外する選択肢を提供しているが、それを広く周知してはいない
-
疑わしい録音のフォレンジック検査
- 知人を名乗って金銭、アクセス権、緊急対応を要求する音声ファイルやボイスメッセージを受け取っても、すぐに行動せずディープフェイク検出器にかけるほうがよい
- ORAVYSは侵害被害者が提出した最初の3サンプルについて無料検査を提供している
- Run a forensic check →
フォレンジック分析チェックリスト
- フォレンジック分析はまず合成音声によくある誤りを探すことから始まる
- コーデック不一致は、電話通話だとされる音声のスペクトル署名が既知の電話コーデックと一致しないときに現れる
- 呼吸パターンは、実際の話者が文の長さと肺活量に応じて息を吸う位置と異なり、合成音声では呼吸を飛ばしたり誤った音節境界に入れたりして不自然になる
- マイクロジッターは自然な声帯振動の微細な不規則性を指し、生成音声はミリ秒レベルで過度にきれいなことが多い
- フォルマント軌跡は、実際の口の調音器官が生み出す母音遷移の経路に従うが、クローン音声はフォルマント間を物理的に不可能な形で飛び越えることがある
- 室内音響の一貫性は、ファイルの最初から最後まで残響特性が同じであるべきだが、生成音声では乾いた音なのに継ぎ足された周辺文脈には残響がある、といったズレが起こりうる
- プロソディの平坦化は、合成音声が実際の話者よりもピッチとエネルギー変化の幅が狭いことに表れる
- 発話速度の安定性は、実際の人間の加減速と異なり、生成音声が長い区間でメトロノームのように一定速度を保つことで見えてくる
ORAVYSの検査方法
- 提出された各サンプルに対して3,000以上のフォレンジックエンジンを並列実行し、信号・プロソディ・調音・コーデック・出所の領域をまとめて扱う
- AudioSealウォーターマーク検出は、ウォーターマークが保持されている場合に主要な商用音声モデルが生成したファイルを示すことができ、ウォーターマークがあれば決定的な陽性結果を提供する
- アンチスプーフィングモジュールはASVspoof公開ベンチマークを基に訓練されており、サンプルが録音ではなく合成である可能性をスコア化する
- GDPR準拠の生体情報処理を適用し、明示的な同意なしに音声を商用モデル学習に使わず、定義された保持スケジュールに従って削除する
- Mercorの契約者で、すでに音声が流通している可能性があるなら、最初の疑わしいサンプル3件を無料で分析してくれる
- 無料レポートにはウォーターマーク検出、アンチスプーフィングスコア、上記のアーティファクトチェックリストが含まれる
- カード情報も不要で、利用量制限の壁もないとしている
出典と制限
- 出典として、Lapsus$のリークサイトインデックス、2026年2月のWall Street Journal、Pindrop Voice Intelligence Report 2025、FBI IC3 Elder Fraud Report 2026、Krebs on Securityアーカイブが挙げられている
- ORAVYSは流出データセットをホスティングまたは再配布せず、それを入力値としても受け付けない
1件のコメント
Hacker Newsの反応
皮肉が効きすぎている。AI企業に自分の音声を渡した被害を減らすために、また別のAI企業へ音声を送れというのだからあきれる
Mercorもおそらく明示的な同意を利用規約に入れて、法的に逃げる余地は作っていた可能性が高い
スタジオ品質の音声録音と身分証のスキャンを提出させていたが、実際のデータラベリング業務にはどちらも不要で、同意は利用規約の奥深くに埋もれており、人々は報酬が必要だからクリックするしかなかった
これで4万人が生体情報はパスワードではないことを学び、声は交換できないという事実もあらわになった
理想的には法は暴力の代わりに紛争を解決するアクセス可能な手段であるべきだが、今では個人の上に企業権力を維持するカフカ的なシステムとして使われることのほうが多い
実態としては法的救済手段をほとんどすべて塞いでしまう方向に近く、他の対抗手段は複数の居住地の維持や警備の雇用のように継続して大きな費用がかかる
暴力を擁護しているのではなく、もっとフラットで利用しやすい法体系が必要だという意味だ
多くの人が事実上、自分自身と自分の会社まで盗聴していたことになる
Mercorの契約者たちがInsightfulによる過剰なデータ収集を主張したとしても、会社側から見ればかなり巧妙な構造でもある。不満を大きく表明すれば本業を失うだけでなく、故意の違法行為として無制限の責任まで負わされるかもしれないという恐れがあるからだ
https://www.wsj.com/tech/ai/mercor-ai-startup-personal-data-lawsuit-0b5c349b?st=5qmCSK&reflink=desktopwebshare_permalink
投稿者です。今月初めにLapsus$が漏えいサイトへ載せたMercorアーカイブを見てこの記事を書いた
特に目を引いたのは音声サンプルと身分証スキャンの組み合わせだった。通常の漏えいはそのどちらかだが、今回はディープフェイクにそのまま使えるキットを丸ごと渡したようなものだ
攻撃者がこの組み合わせで実際に何をできるのか、たとえば銀行の音声認証の回避、Arup型のビデオ通話なりすまし、保険詐欺、そして漏えいした契約者たちが従うべき5段階チェックリストを実用的に整理したかった
フォレンジック検出の話もできる。AudioSealのウォーターマーク、AASISTアンチスプーフィング、そして音声生体情報が大規模に漏えいし始めたときに検出の地形がどう変わるかも重要だ
ソーシャルメディアの投稿は公式発表ではないかもしれないが、カリフォルニア州に提出されたこの漏えい通知サンプルは見つけた
うちの立法者たちが今回はデータプライバシーを本気で扱うのか見守ることになる
https://oag.ca.gov/ecrime/databreach/reports/sb24-621099
Appleデバイスでも生体情報は使わず、6桁のPINだけを使っている
最初からばかげたアイデアだったと思う
利便性と安全性を天秤にかけると利便性を選ばない人が偏執的扱いされ、事故が実際に起きた後でさえ、また別の理由で偏執的扱いされるという流れが繰り返されている
存在しないデータだけが盗難や漏えいの被害を受けない。ユーザーにも企業にも痛い教訓だ
ドイツ語にはこの考え方を指すDatensparsamkeitという言葉もある。データを節約して使う、くらいの意味だ
1970年代のドイツではプライバシーとデータ保存をめぐって大きな議論があり、Datenschattenのような表現も使われていた
こうした伝統はおそらく第二次世界大戦後の反省と行政システムへの省察から来ている
今では誰もが何でもAI向けデータとしてさらに集めようとしている
コピーされたり消去されたりでき、ときにはその両方が同時に起きる
データが本当に消えたと言えるのは最後のコピーまで削除されたときだけだ
エンタープライズの脅威モデルには自社のユーザーまで含まれており、運用方法はその脅威に対してできるだけ多くの情報を蓄積し続ける方向になっている
たとえばMozillaのCommon Voiceデータセットは、誰かが盗める性質のものではない
昨日ヒューストンで元エージェンシー関係者やGS15出身者の近くにいたのだが、イスラエルのサイバーセキュリティ分野がこの20年のあいだにボイスメール供給網のどこかに入り込み、みんなのボイスメールを取得してきたという説明を聞いた
今では音声データを活用できる方法が本当に多くなっていて不気味だ
ではみんなこれから声を入れ替えるしかないのか、と思ってしまう
冗談ではあるが、私の知る普通の人の大半は、単にそのほうが楽だからという理由で生体情報を差し出している
生体情報を永久パスワードのようなものとしてブランディングして、人々が銀行口座へのアクセスやDisney Worldへの入場時に何を差し出しているのか正確に理解できるようにすべきだ
指紋、DNA、虹彩、歩容のようなものは、ほとんど変更できない恒久的識別子であり、メールアドレスのように世界にさらされ続ける
しかも米国法では警察は指紋の提示を強制できるが、パスワードは合衆国憲法修正第5条の保護を受ける
彼らは社会的信頼ともっともらしい否認可能性の中でうまく生きており、自分の落ち度でない限り何かが起きてもあまり気にしない傾向がある
自分を危険にさらすことと、それが自分の責任になることを同じものだと見ていない
ある意味では少しうらやましくもある。世界は本来そうあるべきだという前提で生きているわけだから
顧客が忘れず、サポートも少なくて済むという意味だったので、多くの人はこの表現を良い意味に受け取るかもしれない
Mercorが4万人の契約者をだまして、データセキュリティもずさんだったというのは本当にひどい
こうしたことにはもっと重い責任が伴うべきだ
だから今回の騒ぎの結果が、かえってMercorの追加ビジネスにつながる可能性すらありそうだ
Crowdstrikeのときにも似たものを見た
攻撃者が誰かのきれいに朗読した30秒の音声と運転免許証のスキャンを持っていれば、できることはかなり多い
私の銀行や証券会社を見るだけでも音声IDを使っている
この会社の目的そのものが、そうしたデータを抜き取ることのようにも見える
映像、音声などを大量に収集している
これが事実なら、より大きな問題は漏えいそのものではないのかもしれない
音声 + 身分証だけで誰かを完全になりすませる世界へ静かに移行しているのに、ほとんどのシステムはまだその現実を前提に設計されていない
ここには見たくない労働問題もある
こうしたシステムをラベリングして学習させる人々が、データパイプラインが攻撃対象領域に変わるとき、当の本人たちが最も保護されない立場に置かれている