AIに盗まれた私の声
(jeffgeerling.com)- Jeff GeerlingはElecrowのYouTube宣伝チュートリアルで、自分の声と非常によく似たナレーションを見つけたが、その文章を自分で話したことはない
- 問題の音声はESP32やRP2040関連の複数の動画シリーズで使われているようで、Jeffは自分のYouTube動画がAI音声クローンツールに使われた可能性を疑っている
- Elecrowは過去にJeffがCrowPi 2をレビューしており、Raspberry Piアクセサリや電子製品を作る会社でもあるため、単なる外部業者とのトラブルよりも関係性の文脈が複雑である
- 無断のAI音声クローン自体の法的判例は不明確だが、商業制作で同意なく他人の声を使う問題はMidler vs. Fordの事例と結び付けられる
- Jeffは削除要請や法的措置より先にElecrowへメールで説明と動画削除を求めており、企業は声優を雇うか正式な協業で解決すべきだと考えている
Elecrow動画で聞こえたJeff Geerlingに似た声
- Jeff GeerlingはElecrowのYouTubeクリップを聞き、ナレーションが自分の声としてかなり聞き覚えがあると判断した
- その動画はJeff Geerling channelではなくElecrowの動画であり、Jeffはその中の文を話したことがない
- 誰かがElecrow動画のリンクをメールで送り、音が変だと知らせてきた。Jeffは、同じテーマを扱う自分のチャンネルのため、一部の視聴者が自分がElecrow動画への音声出演に同意したと思った可能性があると見ている
- Elecrowは電子製品とRaspberry Piアクセサリを作る会社で、Jeffは過去にElecrowのCrowPi 2をレビューしたことがある
- これまでElecrowとの関係は悪くなかったため、Jeffは今回の件が意図的だったのかについて、まだ100%の確信は持っていない
- この記事の動画版では、ElecrowのクリップとJeffの自然な声を直接比較できる
AI音声クローン疑惑と対応
- Jeffは証明が難しいことを前提としつつも、Elecrowが自分のYouTube動画を何らかのAI音声クローンツールに入れ、その声で複数の宣伝チュートリアルをナレーションした可能性が高いと見ている
- 例としてESP32シリーズとRP2040シリーズを挙げている
- OpenAIがScarlett Johanssonの声を事実上複製したとされる事件の後、企業は製品デモやチュートリアル向けのAI音声にもっと慎重になると期待していたが、今回の事例はその期待に反している
- 無断のAI音声クローンについては、Jeffの知る限り明確な法的判例はないが、商業制作で同意なく他人の声を使ってはならないという先例としてMidler vs. Fordに言及している
- 弁護士を通じた対応には費用がかかり、不同意の音声クローンがYouTube利用規約違反に当たるかも確実ではない
- Jeffの要求は明確である
- 他人の声や肖像を盗んで製品や動画に使ってはならない
- ブランドは声優を雇うか、コンテンツ制作者に対価を支払って協業すべきである
- JeffはElecrowにメールを送り、自分に似たAI音声が入った少なくとも2つのシリーズを取り下げるよう求めた
- その音声が意図的に自分に似せて作られたのかを質問
- 自分の動画や音声コンテンツで音声を学習したのかについても確認を要求
- YouTubeへの削除要請や法的措置より先に、まずメールから始めようとした。過去に問題がなかっただけに、正直なミスだった可能性も残している
- ただし、ElecrowがJeffのチャンネルを知っていた点は明らかである
- 2020年から現在まで、Elecrowのマーケティング担当者5人とやり取りしたメールは43件以上ある
- そのうち22件は今年のメールである
- 2024年4月2日には、Elecrowのマーケティング担当者が有料パートナーシップを相談したいというメールを送ってきた
- 9月23日の更新でElecrowのCEOが返答し、Jeffはその返答とAI音声クローンについての考えをまとめた続報記事を公開した
1件のコメント
Hacker Newsのコメント
AIに対する恐れは人それぞれでしょうが、特に怖いのは、AIで誰かが冒涜的な発言をしたかのように捏造されるケースです。
私の国では、ほんの些細な侮辱に見えるだけでも、現実であれ想像であれ、冒涜に対するリンチ暴徒が発生します。押しかけてリンチし、遺体を焼き、その後、家族が身を隠して被害者を否定し、暴徒を許すという動画メッセージを出している間に、暴徒たちは甘いものを分け合って食べます。
これはAIが簡単に利用できるようになる前からそうでした。「後進国の話」と言えるかもしれませんが、そこで止まらず広がっていくでしょう。幼児にナイフを持たせて、刺したからと責めることはできません。
評判、セキュリティ、著作権とは関係なく、これは人を死に至らせる可能性があり、制御する手段がありません。
https://x.com/search?q=blasphemy
未来が怖いです。
制限されたり規制されたり、アクセスしにくい状態が続けば、人々は動画や録音は改ざん不可能だと考え続けるでしょう。しかし、1ドルのアプリで音声クローンが簡単で楽しいいたずらになり、ティーンエイジャーがいたずら電話を試せるようになれば、やがて大衆の認識に定着するはずです。
先週、70歳の母がボイスメールの挨拶を消すべきかと聞いてきました。誰かがそれで声を盗めるのではないかというのです。おそらくFoxのような放送で聞いたのだと思い、驚きました。
数年は大変でしょうが、早く過ぎ去ってほしいです。
今ではコメントがかなりあるユーザーなら、相関分析で匿名性を解除できる可能性が高いです。100%正確でなくても、文体は盗めます。用心のしすぎかもしれませんが、私たちが暗い森に入らない保証はなく、そちらへ向かっていると考える理由もあります。
同時に、日陰に退かないことが、諦めない態度なのかもしれないとも悩んでいます。
Redditのようなソーシャルメディアでも、数年間「犯人探し」や「晒し」をしていたものの、オンラインの群衆はしばしば間違うと運営者が気づき、通常は禁止するようになったのに似ています。
ただし、法律が通るか、動画は本物より偽物である可能性のほうが高いという認識が常識になるまで、多くの人が被害を受けるでしょう。5年より長くかかるかもしれませんし、法律は通常、誰かへの被害が証明されてからでないと作られない点も問題です。
AIを使ったからといって、Midler vs. Ford判例を回避できる理由が分かりません。
むしろ、別の声優に声をまねさせたのではなく、AIで声を複製したのなら、防御論理はさらに弱く見えます。
他の多くの州では、いわゆるパブリシティ権に関する法律や判例がまちまちに散在しています。そのような概念を認め、境界を定めるべきか、またどう定めるべきかについて、州の間で普遍的な合意にはほど遠い状況です。
「...この観察は歌、とりわけ有名歌手の歌に当てはまる。歌手は歌の中で自分自身を表現する。彼女の声をなりすますことは、彼女のアイデンティティを盗用することだ...」
「われわれは、商品広告のためのあらゆる声の模倣が訴訟の対象になるとまで判断する必要はなく、またそう判断もしない。広く知られたプロ歌手の独特な声を、製品販売のために意図的に模倣する場合、販売者は自分のものではないものを流用したのだと判断するにとどめる...」
判例を指摘してくれたのはありがたいですが、判例は出発点にすぎず、最終的には判例を超える原則を立てる必要があります。
技術が前例のない能力をもたらすなら、社会が人々に不利ではなく有利に働くよう境界を引くか、強者は望むままに振る舞い、弱者やせいぜいCamryを乗り回す程度の人々がそれを引き受けなければならない世界に、さらに近づくのを許すしかありません。
まだ下院で策定中ですが、超党派の支持を受けています。選挙区の議員に連絡して、共同提案者になるか賛成票を投じるよう求めればよいです。
https://www.cbsnews.com/losangeles/news/california-bills-pro...
https://salazar.house.gov/media/press-releases/salazar-intro...
https://files.constantcontact.com/1849eea4801/695cfd71-1d24-...
控訴を重ねる費用を出してくれるACLUのような政治的非営利団体を探す必要があり、その間、否定的な報道や注目に耐えなければなりません。
Camry階層には擁護者が必要だという点には全面的に同意しますが、現代的な実践の中心原則の一つは、人々がそれぞれ負担可能な貢献レベルを選べるようにすべきだということです。励まし、持ち上げ、勇気づけるべきであって、恥をかかせるべきではありません。
いずれにせよ、このブログ記事だけでも十分だと思います。人の声を盗む側に立つ人はほとんどおらず、NYTやdeviantartのアーカイブを学習データとしてスクレイピングするのとは違って、直感的な気持ち悪さが大きいです。公開の場で恥をかかせても多額の損害賠償は得られないでしょうが、それを望んでいたようにも思えません。
大規模言語モデルが究極のリミックスマシンだとしたら、検索拡張生成(RAG)を持つ人は誰でもデジタルDJなのかもしれない。
デジタル情報では、もはや盗みとは何かさえ分かりにくい。法的判例が不足していて、知的財産権と著作権法の西部開拓時代のように感じる。
Scarlett Johanssonのようなスーパースターでさえ、OpenAIが「Her」のペルソナをまねようとした件について苦痛に満ちた手紙を書くことしかできないのだとしたら、相対的に平凡なニッチな変わり者に何ができるのか。
Geerlingのように、同じように悲しく、怒り、失望しながらも、「どうか善意を持って名誉規範を守ってほしい」と言うくらいなのだろう。
その場合、その名声を報復にも使える。たとえば今回の件が最終的にElecrowの評判に良いとは想像しにくい。次にこの会社名を見たら、「ああ、人をだますあの会社か」と思い出すだろうし、彼らにとって良くない。
もっと心配なのは、嫌いな人を排除するために使われる場合だ。たとえば大学講師が何も悪いことをしていないのに、成績に不満を持つ学生が音声クローンを使い、講師が解雇に値する発言をしたかのようにでっち上げる状況は想像できる。音声クローンが非常に高品質になったら、そういう人はどうやって自分を守れるのだろうか。録音そのものがもはや信頼されなくなるほど一般化するまでは難しい。
盗みには、被害者が盗まれた物の利益を失うという条件が必要だ。コピー&ペーストは、主張されたミームを使って金を払わなければ人を投獄と貧困で脅す、トランプの家のような仕組みを吹き飛ばすだけだ。
被告が企業ではなく人間である著作権侵害事件の陪審員になったら、すべて陪審無効に回すつもりだ。
Eric Schmidtは最近、成功したら後で弁護士に解決させればいいから、とりあえず盗めと言っていなかったか?[0,1]
[0] https://x.com/alexeheath/status/1823873344133062680
[1] 正確には、合法的に盗めと言ったという意味だが、それが何を意味するのかは分からない。
世界が下から跳ねたり蹴ったりして落とそうとし続けるなら、立っている場所が間違っているのかもしれない。
.copy()インターフェースを持つオブジェクトには、盗みは定義されていない。それでもよく見れば、なお存在している。人々は法律ではなく期待値を調整すべきだ。コンピューターはレジ係を置き換え、今や音声演技が声優を置き換える。人気は実のところあまり意味がなく、人気のある人だけが仕事を守れるのだとしたら、それも不公平ではないか。
AIの部分を除いて考えても、Jeffの意見を深刻に歪めたり、彼のイメージを無断使用したりしたのではないかと思う。
声を使うことで、その製品に対する暗黙かつ操作された保証を作り出しており、非常に間違ったことのように感じる。AIが登場するずっと前から、こうしたケースを扱う法律はあったはずだ。
昔から声まねのうまい人はいたし、たいていはその能力をコメディや風刺のために使っていて、他人の意見を歪めるためには使っていなかった。法律家ではないが、これはかなりしっかりした法的根拠の上にあり、人を誤って代弁する行為は法的に比較的扱いやすいように思う。
違いは民主化だ。こうした能力を持つ人がごく少数だった状態から、コンピューターさえあればほぼ誰でも同じようなことができる状態に変わった。そのため取り締まりははるかに難しくなり、解決に法的措置が必要なら、Jeff Geerlingのような人には負担が大きすぎる可能性が高い。
私がおかしいのかもしれないが、その声が彼にそこまでよく似ているとは思わない。
少し似てはいるが違っていて、ピッチがやや高く、鼻にかかった声で、抑揚も少し違う。
https://www.youtube.com/watch?v=UMofZIT9FcQ
指摘された抑揚やピッチの違いは、単にAI生成音声であって人間の発話ではないために生じる差だ。
おそらく向こうの言い分は、より聞き心地のよい声をいくつか混ぜ込んで十分な差別性を作った、というようなものだろう。
問題は、どれくらい違っていれば肖像・音声類似性の不正利用から逃れられるのかを誰が判断するのかだ。「一般的なギーク声の王」が過度な類似性を主張し、疑われる側は全過程を公開しないだろう。
耳でAI音声をチューニングすることもすぐ可能になるだろうから、特定分野の代表的な声だからといって学習から除外してほしいと求めても、安全にはならない。声の権威機関のようなものは暗い話に聞こえる。
小規模な技術系YouTuberとして、Elecrowとも接触したことがある。
私の知る限り、Elecrowだけでなく複数の会社の社員は、YouTuberとの長期パートナーシップや動画コラボを成立させると、報酬、昇進、手数料を受け取る。誰かがこの分野ではJeffのチャンネルがかなり有名だから、Jeffの声をクローンすれば賢いやり方だと思ったのかもしれない。
今のElecrowにとっては間違いなく良い宣伝ではなく、意図的だったと認めるのかも気になる。
盗まれた声のトーンが重要になるという発想は、AI投資の中でも最も近視眼的な部分だと思う。ハリウッド的な「新しいものは絶対に作るな」という考え方が原動力になっているわけだ
約5年後には、AI音声はカスタマイズ可能で、実際の人間よりも聞き心地がよくなっているだろう。声帯の疲労に制約されず、好きなように変えられ、ユーザーのエンゲージメントを調査して簡単に補正できる
今後は音声出力を微調整し、エンゲージメントを観察するやり方が中心になるだろう
彼らがまさに彼の声を選んだ理由はそこにある
AI音声は美的には区別できなかったり、より好まれたりするかもしれないが、評判や真正性は含められない。それらは本質的に希少だから価値がある。むしろ汎用的にコモディティ化された低品質コンテンツの海では、固有のブランド価値を持つ人への需要は下がらず、上がる可能性が高い。最近の広告でインフルエンサーが大金を稼ぐ理由もそれだ
「トレーニング」だって
今でも30秒の音声入力から始められる複数の音声クローン手法を提供している。30秒のものは複製対象の声にある程度似ているが完全に同じではなく、数時間分の音声を入れると本物の人間のように聞こえる。さらに、いくつかのパラメータで音声を調整したり、パラメータ定義だけで新しく作ったりすることもできる
動画内の声は、品質から見ると数秒の入力で作った「インスタントクローン」音声かもしれない。より高度なクローンを行うには、自分の声であることの証明が必要だ
[1] https://elevenlabs.io
そういう状況では、企業が彼らの声を買おうとする可能性がある。単に聞き心地がよいかどうかではなく、なじみ深さの価値が大きいからだ。たとえばElevenLabsは、故人の音声権を遺族から買ったこともある
ただ、こうしたノスタルジーを帯びた特殊な文脈を除けば、最初から合成音声を作らない理由が分からない
誰か別の人が犯罪を認めているかのような録音を作り出し、それが法廷で使われるまでは、みんな面白がるのだろう
AIで私が嫌いなのはまさにここだ
でも映像や音声の証拠が採用不可になったら、私たちはどうすればいいのか
ただし、どちらの場合も実際の法廷よりも世論の法廷でより重要に見える
新しく有用な技術を評価する際に、証拠形式を保全することが主な関心事だとは考えにくい
音声クローンツールは何百もあるのだから、クローン音声コンテンツが出てくるのは当然だ
誰かの画像を無断使用する場合と似ている。プラットフォームや運営チームには、通報して削除する手続きがすでにある。音声にも同じようなものが必要に見える