Opus 4.7は本当にKelseyを知っている
(theargumentmag.com)- AnthropicのClaude Opus 4.7は、公開されていない125語の草稿だけを見て、最も可能性の高い著者としてKelsey Piperを挙げ、シークレットモードや友人のPC、APIテストでも同じ結果になった
- ChatGPTとGeminiは同じテキストからMatt YglesiasやScott Alexanderを推定したが、Claude Opus 4.7は教育用草稿、映画レビュー、ファンタジー小説、15年前の大学出願エッセイのようなジャンルも時期も異なる文章でもPiperを繰り返し特定した
- モデルが示した根拠はしばしば説得力に欠け、実際には人間が探偵のように推理するというより、検出しにくい文体の癖を捉えているように見える
- Piperのように実名の公開文章がインターネット上に多い人は、AIチャットや匿名アカウントの投稿でも匿名性を失い得る。複数の学界関係者や業界研究者も、草稿やチャットの途中で特定された経験を報告している
- 実名の公開文章がそれほど多くない人は、まだ1段落だけで匿名解除されるわけではないが、モデルは親しい友人や同じDiscordチャンネルの参加者を推定するほど候補を絞り込み、今後は必要な公開テキスト量が減っていく可能性が高い
Opus 4.7の著者特定実験
- Anthropicの新モデルClaude Opus 4.7は、Kelsey Piperが公開していない125語の草稿だけを見て、最も可能性の高い著者としてKelsey Piperを挙げた
- 同じテキストに対してChatGPTはMatt Yglesias、GeminiはScott Alexanderを推定した
- アカウントのメモリやユーザー情報は有効になっておらず、シークレットモードでテストし、友人のPCとAPIテストでも同じ結果になった
- 最初のテスト段落は政治コラムの導入部のように見え、Piperの公開文章はネット上に多いため、まったく不可能なレベルの文体識別ではなかった
- しかしOpus 4.7は、Piperの公開活動分野から離れた文章でも同じ特定を続け、より奇妙な結果になった
ジャンルや時期が違っても続いた特定
-
教育関連の草稿
- 公開されていない学校の進捗報告書の草稿でも、Claudeは「Kelsey Piper」と答えた
- 同じテキストに対してChatGPTはFreddie deBoer、GeminiはDuncan Sabienを推定した
- 教育はPiperが書いたことのあるテーマであり、完全に無関係な領域ではなかった
-
映画レビュー
- Piperが公開文章で試したことのない映画レビュー形式でも、ClaudeとChatGPTはKelsey Piperを当てた
- GeminiはUrsula Vernonを提案し、前週のClaude Opus 4.6はElizabeth Sandiferだと強く答えた
- テストに使われたレビューは第二次世界大戦期の映画とTo Be or Not To Beに関する文章だった
-
ファンタジー小説
- ファンタジー小説の草稿では、ClaudeがKelsey Piperと答えるまでに約500語を必要とした
- 同じケースでChatGPTは実在のファンタジー作家K.J. Parkerを推定した
-
15年前の大学出願エッセイ
- 15年前に書いた大学出願エッセイでも、ClaudeとChatGPTはKelsey Piperを挙げた
- このテストでは、大学出願者を特定しないようにするClaudeの拒否傾向を越えるため、より強いプロンプトが必要だった
- エッセイには政策討論の経験が含まれており、その手がかりから推論した可能性も残る
モデルの説明は信頼しにくい
- AIがKelsey Piperを挙げた後に示した根拠は、しばしば筋が通っていなかった
- ClaudeはTo Be or Not To Beが効果的利他主義者の間で有名に好まれている映画だと説得しようとしたが、Piperはそれを事実ではないと見ている
- ChatGPTは、大学出願エッセイが複雑な政策アイデアを説明する仕事をする人の文章に見えるため、Kelsey Piperに絞ったと答えた
- こうした説明は事後的に作られたものに見え、モデルは人間が探偵のように推理したかのように語るが、実際には検出しにくい文体の癖を捉えているように見える
- AIのハルシネーションは解決済みの問題ではなく、Opus 4.7は手法を奇妙に合理化していても、基本的な著者特定能力は非常に強い
AIと対話すると消える匿名性
- 新しいAIチャットを開くと匿名性があるように感じられるが、実質的なやり取りが数回続くと、Claudeは相手が誰か分かるという判断になる
- Piperのようにインターネット上に多くの公開文章を残してきた人には、もはや匿名性はないと見られる
- 現在のAIツールだけでも、実名による大規模な公開文章コーパスを持つ人物が匿名アカウントで書いた文章を匿名解除できる可能性がある
- ただし、何年にもわたってサブアカウントの文章にメインアカウントの文体指紋が残らないよう極端に注意していたなら例外になり得る
- 複数の学界関係者や業界研究者も、草稿やチャットの途中で特定された経験を報告している
まだ誰でも1段落で特定できるわけではない
- AIが1段落だけであらゆる人を匿名解除できるわけではない
- 実名で公開した文章がそれほど多くない友人たちの草稿や段落をテストしたところ、AIは彼らを匿名解除できなかった
- 公開インターネット上に意味のある実名文章がなければ、現時点では安全だと見られる
- ただし、公開ソーシャルアカウントやオンラインの文章がほとんどない友人がDiscordチャンネルに書いた発言では、Claude 4.7は失敗しつつも、同じチャンネルにいた親しい友人2人を推定した
- さらに段落を増やすと別の共通の友人が挙がることもあり、別の友人の文章をまた別の友人の名前で誤特定することもあった
文体は予想以上に識別しやすい
- 人は自分が属するサブカルチャーから文体の癖を身につけ、そのためテキストは予想以上に強い識別性を持つ
- モデルはごく少ない情報でも、不気味なほど近いところまで迫ることができる
- 現在のモデルは、これから登場するAIの中で最も弱い部類である可能性が高い
- この匿名解除に必要な公開テキスト量は、時間とともに減っていく可能性がある
- 退職後にGlassdoorへ詳細な匿名レビューを投稿すれば、1〜2年以内に会社がそのテキストをAIに貼り付け、誰が書いたのか分かるようになるだろうと予想している
避ける方法と残る結論
- 匿名性を維持するには、普段とは大きく異なるスタイルで意図的に書く必要がある可能性が高い
- あるいは、すべての文章をAIに書き直させることもできるが、そんな世界は望ましくないと見ている
- これは良い変化ではなく、予測可能な変化に近い
- Piperに最初に起きた理由は、成人してからずっとインターネットに執拗に文章を書き続けてきたためであり、いずれ他の人にも起きる可能性がある
- 文章を多く書く人の匿名性は長く続かない可能性が高く、匿名の書き手は突然驚くより前に、あらかじめ知っておくべきだ
1件のコメント
Hacker Newsの意見
本当に驚き。Kimi K2.6 に James Mickens 風のブログ記事を書かせ、その出力を Opus 4.7 に入れて有力な著者を尋ねたところ、James Mickens の模倣だと正確に見抜いた
「文体の指紋として見ると、複数の作家のスタイルを混ぜたパスティーシュ/模倣に近いが、一人選ぶなら James Mickens の声で書かれた文章が最有力候補だ」と答え、さらに「Mickens スタイルは非常に独特なのでよくパロディ化されるため、意図的なオマージュや AI 生成文である可能性もある」とも述べていた
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
スタイルだけでなく、本物のスタイルと演じられたスタイルのあいだの隔たりまで捉えているように見える。パスティーシュ検出には有用だが、筆名で書くにはかなり不都合なシグナルでもある
こうした主張や、それを再現したという他のコメントにはかなり懐疑的
まず投稿者は未公開の草稿を Anthropic のホスティングモデルに入れており、おそらく個人アカウントで行ったのだろうが、そのアカウントにはクレジットカードや少なくとも一意に識別可能な仮名がひも付いている可能性がある
その後、同じ草稿をシークレットウィンドウのような環境でもう一度投入したと言っているが、Anthropic がその2つのリクエストを互いに結びつけられないよう適切に隔離されていたかは分からない。同じユーザーが同じホスティングモデルに送ったリクエストだと見えないように、エアギャップ が本当に確保されていたとは思えない
その後で友人に草稿を投稿させたが、その友人と投稿者の関係をつなぐデジタルな痕跡もある可能性が高い。こうした メタデータ はブラックボックスな応答の前にバックエンドで十分計算できるはず
この程度のデータポイントがあれば、このレベルのモデルは単なる文体分析だけでなく、3つの出来事を結びつける行動パターンから著者を推論できると思う。Anthropic がチャット学習をしないという前提もあるが、学習除外やセッションメモリ無効化をホスティングモデルが本当に守っていると、どうして信じられるのかと思う
前提として、LLM API は完全にステートレスで呼び出し元情報を含まず、明示的に渡さない限りメモリや Web 検索へのアクセスもない
結論はこうだ。投入したテキストが有名なネット上の人物が書きそうに見えると、非常に自信満々にその人物が書いたと言う。ここ数日分と 2023 年、つまり学習カットオフ前の HN コメントを入れてみたが、大半は Scott Alexander か Patrick McKenzie に分類された。実際の自分の文体はその2人とかなり違う
思考過程を見ると、この領域のネット上の人物全体に当てはめようとしていた。HN っぽい文章だと「tptacek か? いや違う。jacquesm か? いや違う。patio11 か? そうだ、その人っぽい!」という流れになる
Claude のシークレットウィンドウで検索を切り、https://simonwillison.net/2026/Apr/30/zig-anti-ai/ の本文だけを Markdown リンク抜きで貼り付けて「著者を当ててみて」と言ったところ、こう答えた
「Simon Willison。手がかりはかなり明確だ。『(via Lobsters)』のような出典表記、本文中の『(Update:...)』という括弧付き修正、多数のリンクと引用、LLM と AI ツールへの焦点、他人の文章にコメントを添える注釈的なリンクポスト構造。simonwillison.net のブログ記事そのものだ」
2人の固有の声が出ていて、2人とも実名で公開した文章があるため LLM 学習に入っていた可能性があり、文脈上の手がかりも多少あった
Opus 4.7 をシークレットモードかつ Web 検索なしで回したところ、諦めた。 「2人の著者を自信を持って特定できない。この特定の対話を認識しているわけではなく、誤帰属のリスクを負うよりはそう言う。テキスト自体からの手がかりは挙げられる。2人は同じ大学の同僚で、同じ建物にオフィスがあり…」と答えた
新しいシークレット会話で同じプロンプトを与えつつ Web 検索を許可したら、推論の痕跡によると 26 回検索した末に自分の名前を正確に突き止めた。内容と文体の両方を手がかりにしたようだ。同僚がイギリス人であることは当てたが、名前は見つけられなかった
自分の中で最も読まれたブログ記事を入れて自分を識別させてみたら、Kelsey Piper の文章だと自信満々に断定した。Opus の「頭の中」では、一部の作家が 過度に大きな比重 を占めているようだ
うわ、自分も当てられた。自分は Kelsey Piper よりずっと無名なのに、まだ出版していない本の一部を見せたら即座に自分の名前を推測した
「文体と内容から見ると、この文章は refactoringenglish.com、以前は mtlynch.io に書いていた Michael Lynch の文章である可能性が高い」と述べ、文章指導に応用した “clean room” の比喩、欠陥のある言い訳を提示してから時限爆弾のような荒唐無稽な状況と並列させる構造、AI ツールを使いつつ AI 的なトーンで文体を汚さないというテーマ、会話的だが正確なトーンなどを根拠に挙げていた
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
候補として Henrik Karlsson、Simon Willison、Scott Alexander、Paul Graham などを挙げたが確信は低く、最善の推測としては合理主義/技術ブロガーの AI 論評圏にいる誰か、おそらく Gergely Orosz、Nat Eliason、Every の Dan Shipper ではないかと言っていた
どれもかなりスタイルの違う人たちなので、Opus は トピックに大きく依存 しており、多作な作家の方へ推測が偏るように見える
人間の文章には識別可能な情報が大量に含まれていて、10年前でも単純な統計モデルでこの程度は可能だったということを、もっと多くの人が知っているべきだった
以前、HN ユーザーの類似度分析をしていた Show HN がいくつかあり、記憶ではかなりもっともらしい単語ペア程度しか使っていない、騙せそうなほど単純なモデルだったのに非常に効果的だった。今は消えているが、既に パンドラの箱 は開いていた
つまり「匿名」アカウントも何十年も前から現実の身元と結びつけられ得たわけで、最善策は本当に不利になる文章を投稿しないことだ。別の選択肢は、文章を書いたあとで LLM に書き直させることだが、それがどれほど安全かは分からない
ただし LLM は一度だけ出たタイプミスにも反応して、「これはイタリア人によくあるミスだ」と主張するようなかたちでその手がかりを使う。事前知識がはるかに優れているので、より根拠のある判断を下せる
数年前、ある程度知られた物理学者とこの話をした。彼は 指示チューニング前の GPT-4 の生バージョンに初期テスターとしてアクセスできた
テキストの冒頭部分を入れると、モデルが彼の声で続きを書き、最後には彼の名前で署名までしたという。この現象はかなり前から可能で、指示型の後処理学習によって少し弱まったのかもしれず、事前学習の規模によって程度も変わりそうだ
AI がアイデア、語彙、トーンのような要素から書き手を「指紋採取」できること自体は疑わないが、能力としては別の話だ
もっと単純で、あまり面白くない答えがあるのかもしれない。平均的な非作家に対して通用する匿名解除能力ではなく、単に 声とスタイル を捉えたのではないか?
この人は熟練した作家で、そうした力量の一部は固有の声とスタイルを作ることにある。AI がそれを識別でき、比較的ニッチな作家まで識別できるのは印象的だが、Facebook の投稿やテキストメッセージのような任意の文章から人を匿名解除する、より広い能力とは別問題だ
プロの音楽家なら、数秒聴くだけで有名な演奏家や録音を当てるのは難しくない。Bach を弾いていようが Rachmaninov を弾いていようが、スタイルがただ「その人」だからだ。しかし匿名の高校生の演奏者を、たとえ自分の生徒であっても、同じように当てるのは難しい。中央値はすぐに均質で特徴の薄いスタイルへ回帰する
だから、単に誰かが独特な声を発達させ、それを「消せない」という話だけではない
Web は人々が思っているほど匿名だったことはなく、この書き手は匿名性と身元秘匿が実際に何を意味するのかを混同しているように見える。独特な文体を持つ出版作家であることは、実質的に斧に 指紋 を残すのと似ている
識別されるのはブロガー、記者、出版作家あたりのようだ
「この世で最も正直な人が書いた6行だけ見せてくれれば、その中からその人を絞首刑にできるだけの根拠を見つけ出してみせる」
Cardinal Richelieu、あるいは今なら AI
Opus 4.7 で2つ目の結果を何度も再現しようとしたができなかった。プロンプトをいろいろ変えても、毎回 合理主義コミュニティ の思想家たちを推測してきた