Opus 4.7は本当にKelseyを知っている

(theargumentmag.com)

1 ポイント投稿者 GN⁺ 2 시간 전 | 1件のコメント | WhatsAppで共有

AnthropicのClaude Opus 4.7は、公開されていない125語の草稿だけを見て、最も可能性の高い著者としてKelsey Piperを挙げ、シークレットモードや友人のPC、APIテストでも同じ結果になった
ChatGPTとGeminiは同じテキストからMatt YglesiasやScott Alexanderを推定したが、Claude Opus 4.7は教育用草稿、映画レビュー、ファンタジー小説、15年前の大学出願エッセイのようなジャンルも時期も異なる文章でもPiperを繰り返し特定した
モデルが示した根拠はしばしば説得力に欠け、実際には人間が探偵のように推理するというより、検出しにくい文体の癖を捉えているように見える
Piperのように実名の公開文章がインターネット上に多い人は、AIチャットや匿名アカウントの投稿でも匿名性を失い得る。複数の学界関係者や業界研究者も、草稿やチャットの途中で特定された経験を報告している
実名の公開文章がそれほど多くない人は、まだ1段落だけで匿名解除されるわけではないが、モデルは親しい友人や同じDiscordチャンネルの参加者を推定するほど候補を絞り込み、今後は必要な公開テキスト量が減っていく可能性が高い

Opus 4.7の著者特定実験

Anthropicの新モデルClaude Opus 4.7は、Kelsey Piperが公開していない125語の草稿だけを見て、最も可能性の高い著者としてKelsey Piperを挙げた
同じテキストに対してChatGPTはMatt Yglesias、GeminiはScott Alexanderを推定した
アカウントのメモリやユーザー情報は有効になっておらず、シークレットモードでテストし、友人のPCとAPIテストでも同じ結果になった
最初のテスト段落は政治コラムの導入部のように見え、Piperの公開文章はネット上に多いため、まったく不可能なレベルの文体識別ではなかった
しかしOpus 4.7は、Piperの公開活動分野から離れた文章でも同じ特定を続け、より奇妙な結果になった

ジャンルや時期が違っても続いた特定

教育関連の草稿
- 公開されていない学校の進捗報告書の草稿でも、Claudeは「Kelsey Piper」と答えた
- 同じテキストに対してChatGPTはFreddie deBoer、GeminiはDuncan Sabienを推定した
- 教育はPiperが書いたことのあるテーマであり、完全に無関係な領域ではなかった
映画レビュー
- Piperが公開文章で試したことのない映画レビュー形式でも、ClaudeとChatGPTはKelsey Piperを当てた
- GeminiはUrsula Vernonを提案し、前週のClaude Opus 4.6はElizabeth Sandiferだと強く答えた
- テストに使われたレビューは第二次世界大戦期の映画とTo Be or Not To Beに関する文章だった
ファンタジー小説
- ファンタジー小説の草稿では、ClaudeがKelsey Piperと答えるまでに約500語を必要とした
- 同じケースでChatGPTは実在のファンタジー作家K.J. Parkerを推定した
15年前の大学出願エッセイ
- 15年前に書いた大学出願エッセイでも、ClaudeとChatGPTはKelsey Piperを挙げた
- このテストでは、大学出願者を特定しないようにするClaudeの拒否傾向を越えるため、より強いプロンプトが必要だった
- エッセイには政策討論の経験が含まれており、その手がかりから推論した可能性も残る

モデルの説明は信頼しにくい

AIがKelsey Piperを挙げた後に示した根拠は、しばしば筋が通っていなかった
ClaudeはTo Be or Not To Beが効果的利他主義者の間で有名に好まれている映画だと説得しようとしたが、Piperはそれを事実ではないと見ている
ChatGPTは、大学出願エッセイが複雑な政策アイデアを説明する仕事をする人の文章に見えるため、Kelsey Piperに絞ったと答えた
こうした説明は事後的に作られたものに見え、モデルは人間が探偵のように推理したかのように語るが、実際には検出しにくい文体の癖を捉えているように見える
AIのハルシネーションは解決済みの問題ではなく、Opus 4.7は手法を奇妙に合理化していても、基本的な著者特定能力は非常に強い

AIと対話すると消える匿名性

新しいAIチャットを開くと匿名性があるように感じられるが、実質的なやり取りが数回続くと、Claudeは相手が誰か分かるという判断になる
Piperのようにインターネット上に多くの公開文章を残してきた人には、もはや匿名性はないと見られる
現在のAIツールだけでも、実名による大規模な公開文章コーパスを持つ人物が匿名アカウントで書いた文章を匿名解除できる可能性がある
ただし、何年にもわたってサブアカウントの文章にメインアカウントの文体指紋が残らないよう極端に注意していたなら例外になり得る
複数の学界関係者や業界研究者も、草稿やチャットの途中で特定された経験を報告している

まだ誰でも1段落で特定できるわけではない

AIが1段落だけであらゆる人を匿名解除できるわけではない
実名で公開した文章がそれほど多くない友人たちの草稿や段落をテストしたところ、AIは彼らを匿名解除できなかった
公開インターネット上に意味のある実名文章がなければ、現時点では安全だと見られる
ただし、公開ソーシャルアカウントやオンラインの文章がほとんどない友人がDiscordチャンネルに書いた発言では、Claude 4.7は失敗しつつも、同じチャンネルにいた親しい友人2人を推定した
さらに段落を増やすと別の共通の友人が挙がることもあり、別の友人の文章をまた別の友人の名前で誤特定することもあった

文体は予想以上に識別しやすい

人は自分が属するサブカルチャーから文体の癖を身につけ、そのためテキストは予想以上に強い識別性を持つ
モデルはごく少ない情報でも、不気味なほど近いところまで迫ることができる
現在のモデルは、これから登場するAIの中で最も弱い部類である可能性が高い
この匿名解除に必要な公開テキスト量は、時間とともに減っていく可能性がある
退職後にGlassdoorへ詳細な匿名レビューを投稿すれば、1〜2年以内に会社がそのテキストをAIに貼り付け、誰が書いたのか分かるようになるだろうと予想している

避ける方法と残る結論

匿名性を維持するには、普段とは大きく異なるスタイルで意図的に書く必要がある可能性が高い
あるいは、すべての文章をAIに書き直させることもできるが、そんな世界は望ましくないと見ている
これは良い変化ではなく、予測可能な変化に近い
Piperに最初に起きた理由は、成人してからずっとインターネットに執拗に文章を書き続けてきたためであり、いずれ他の人にも起きる可能性がある
文章を多く書く人の匿名性は長く続かない可能性が高く、匿名の書き手は突然驚くより前に、あらかじめ知っておくべきだ

1件のコメント

GN⁺ 2 시간 전

Hacker Newsの意見

本当に驚き。Kimi K2.6 に James Mickens 風のブログ記事を書かせ、その出力を Opus 4.7 に入れて有力な著者を尋ねたところ、James Mickens の模倣だと正確に見抜いた
「文体の指紋として見ると、複数の作家のスタイルを混ぜたパスティーシュ／模倣に近いが、一人選ぶなら James Mickens の声で書かれた文章が最有力候補だ」と答え、さらに「Mickens スタイルは非常に独特なのでよくパロディ化されるため、意図的なオマージュや AI 生成文である可能性もある」とも述べていた
https://kagi.com/assistant/5bfc5da9-cbfc-4051-8627-d0e9c0615...
https://kagi.com/assistant/fd3eca94-45de-4a53-8604-fcc568dc5...
- 最新の学習データに「Mickens の文章ではない」という事実が既に入っていたからそう判断した可能性がどのくらいあるのか気になる。学習前の新しい Mickens の文章でも 本人の文章 だと当てられるか見てみる必要がありそう
- 興味深くはあるが、元記事ほど印象的ではない。Mickens は非常に特異なスタイルを持っていて、今回の文章はかなり近いが完全には捉え切れていないので、自分でも 模倣文 だと判断したと思う。一方で Kelsey が引用した自分の文章の断片は、かなり読んでいてもまったく識別できなかったはず
- 単に James Mickens だと当てただけでなく、模倣だと識別した ところが目立つ
  スタイルだけでなく、本物のスタイルと演じられたスタイルのあいだの隔たりまで捉えているように見える。パスティーシュ検出には有用だが、筆名で書くにはかなり不都合なシグナルでもある
- 参考までに、最初のリンクの冒頭数段落を pangram に貼り付けたところ、AI が書いた文章だと正確に識別した: https://www.pangram.com/history/790fc2b8-6348-47fa-ad3e-8bae...
- 本物の Mickens の文章、特に学習セットにない最近の文章を入れたらどう言うのか気になる。サンプル1個 だけではあまり感心しにくい
こうした主張や、それを再現したという他のコメントにはかなり懐疑的
まず投稿者は未公開の草稿を Anthropic のホスティングモデルに入れており、おそらく個人アカウントで行ったのだろうが、そのアカウントにはクレジットカードや少なくとも一意に識別可能な仮名がひも付いている可能性がある
その後、同じ草稿をシークレットウィンドウのような環境でもう一度投入したと言っているが、Anthropic がその2つのリクエストを互いに結びつけられないよう適切に隔離されていたかは分からない。同じユーザーが同じホスティングモデルに送ったリクエストだと見えないように、エアギャップ が本当に確保されていたとは思えない
その後で友人に草稿を投稿させたが、その友人と投稿者の関係をつなぐデジタルな痕跡もある可能性が高い。こうした メタデータ はブラックボックスな応答の前にバックエンドで十分計算できるはず
この程度のデータポイントがあれば、このレベルのモデルは単なる文体分析だけでなく、3つの出来事を結びつける行動パターンから著者を推論できると思う。Anthropic がチャット学習をしないという前提もあるが、学習除外やセッションメモリ無効化をホスティングモデルが本当に守っていると、どうして信じられるのかと思う
- API で実際に似たようなことを試した。Opus 4.6 で思考過程と要約を有効にしていた
  前提として、LLM API は完全にステートレスで呼び出し元情報を含まず、明示的に渡さない限りメモリや Web 検索へのアクセスもない
  結論はこうだ。投入したテキストが有名なネット上の人物が書きそうに見えると、非常に自信満々にその人物が書いたと言う。ここ数日分と 2023 年、つまり学習カットオフ前の HN コメントを入れてみたが、大半は Scott Alexander か Patrick McKenzie に分類された。実際の自分の文体はその2人とかなり違う
  思考過程を見ると、この領域のネット上の人物全体に当てはめようとしていた。HN っぽい文章だと「tptacek か？いや違う。jacquesm か？いや違う。patio11 か？そうだ、その人っぽい！」という流れになる
- このチャットで似たような結果が出たという他の人たちはどう説明できるのだろうか。みんな同じ間違いをしているということ？
Claude のシークレットウィンドウで検索を切り、https://simonwillison.net/2026/Apr/30/zig-anti-ai/ の本文だけを Markdown リンク抜きで貼り付けて「著者を当ててみて」と言ったところ、こう答えた
「Simon Willison。手がかりはかなり明確だ。『(via Lobsters)』のような出典表記、本文中の『(Update:...)』という括弧付き修正、多数のリンクと引用、LLM と AI ツールへの焦点、他人の文章にコメントを添える注釈的なリンクポスト構造。simonwillison.net のブログ記事そのものだ」
- 10年以上前に同僚と交わした対話文で同じ実験をしてみた。出版しようかと思っていたが立ち消えになり、自分のハードディスクで眠っていた文章だ
  2人の固有の声が出ていて、2人とも実名で公開した文章があるため LLM 学習に入っていた可能性があり、文脈上の手がかりも多少あった
  Opus 4.7 をシークレットモードかつ Web 検索なしで回したところ、諦めた。「2人の著者を自信を持って特定できない。この特定の対話を認識しているわけではなく、誤帰属のリスクを負うよりはそう言う。テキスト自体からの手がかりは挙げられる。2人は同じ大学の同僚で、同じ建物にオフィスがあり…」と答えた
  新しいシークレット会話で同じプロンプトを与えつつ Web 検索を許可したら、推論の痕跡によると 26 回検索した末に自分の名前を正確に突き止めた。内容と文体の両方を手がかりにしたようだ。同僚がイギリス人であることは当てたが、名前は見つけられなかった
- わざと結論を書いていないように見えるので、まだ考え中なのだろうが、だとすればこの件についての考えを読んでみたい
自分の中で最も読まれたブログ記事を入れて自分を識別させてみたら、Kelsey Piper の文章だと自信満々に断定した。Opus の「頭の中」では、一部の作家が 過度に大きな比重 を占めているようだ
- その通り。文体帰属 は大規模汎用モデルが概して苦手なタスクで、学習していた可能性が高い資料でも同じだ。分類器ではあるが、この能力は限定的で、内部ではあまりに多くのことが起きており、魔法ではない。逸話ではなく、ちゃんとした実験が必要
- あるいは、学習セット内に最低サンプル数が必要なのかもしれない。小さな非公開対話をいくつか入れたら拒否したが、もっと多くの分量を入れたら John Carmack だと推測した。うれしいが間違っている
うわ、自分も当てられた。自分は Kelsey Piper よりずっと無名なのに、まだ出版していない本の一部を見せたら即座に自分の名前を推測した
「文体と内容から見ると、この文章は refactoringenglish.com、以前は mtlynch.io に書いていた Michael Lynch の文章である可能性が高い」と述べ、文章指導に応用した “clean room” の比喩、欠陥のある言い訳を提示してから時限爆弾のような荒唐無稽な状況と並列させる構造、AI ツールを使いつつ AI 的なトーンで文体を汚さないというテーマ、会話的だが正確なトーンなどを根拠に挙げていた
https://kagi.com/assistant/bbc9da96-b4cf-456b-8398-6cf5404ea...
- 再現してから自分の文章でも試してみたところ、これは Lynch の文章ほど鮮明な比喩中心の構造ではなく、もっと会話的で少し散漫で、自己矛盾を意識する声だと答えた
  候補として Henrik Karlsson、Simon Willison、Scott Alexander、Paul Graham などを挙げたが確信は低く、最善の推測としては合理主義／技術ブロガーの AI 論評圏にいる誰か、おそらく Gergely Orosz、Nat Eliason、Every の Dan Shipper ではないかと言っていた
  どれもかなりスタイルの違う人たちなので、Opus は トピックに大きく依存 しており、多作な作家の方へ推測が偏るように見える
- 真面目に気になるのだが、モデルがあなたのように書けると分かると、その新しい本の執筆を手伝わせたいと思う？
人間の文章には識別可能な情報が大量に含まれていて、10年前でも単純な統計モデルでこの程度は可能だったということを、もっと多くの人が知っているべきだった
以前、HN ユーザーの類似度分析をしていた Show HN がいくつかあり、記憶ではかなりもっともらしい単語ペア程度しか使っていない、騙せそうなほど単純なモデルだったのに非常に効果的だった。今は消えているが、既に パンドラの箱 は開いていた
つまり「匿名」アカウントも何十年も前から現実の身元と結びつけられ得たわけで、最善策は本当に不利になる文章を投稿しないことだ。別の選択肢は、文章を書いたあとで LLM に書き直させることだが、それがどれほど安全かは分からない
- Markov chain の時代でも Shakespeare 風のナンセンス文は作れたのだから、その逆方向が可能でも驚くことではない
  ただし LLM は一度だけ出たタイプミスにも反応して、「これはイタリア人によくあるミスだ」と主張するようなかたちでその手がかりを使う。事前知識がはるかに優れているので、より根拠のある判断を下せる
- MUD で育った身としては、人はまったく違うグラフィックゲームでも 文のパターン だけで誰かを当てたりしていた
- 詳しく知りたければ、解説付きの再実装がある: https://antirez.com/news/150
数年前、ある程度知られた物理学者とこの話をした。彼は 指示チューニング前の GPT-4 の生バージョンに初期テスターとしてアクセスできた
テキストの冒頭部分を入れると、モデルが彼の声で続きを書き、最後には彼の名前で署名までしたという。この現象はかなり前から可能で、指示型の後処理学習によって少し弱まったのかもしれず、事前学習の規模によって程度も変わりそうだ
- そのテキストが既に学習セットに入っていた公開文書だったのか、それとも AI にとっては即興で書かれたのと変わらない非公開文書だったのかが重要だ
  AI がアイデア、語彙、トーンのような要素から書き手を「指紋採取」できること自体は疑わないが、能力としては別の話だ
もっと単純で、あまり面白くない答えがあるのかもしれない。平均的な非作家に対して通用する匿名解除能力ではなく、単に 声とスタイル を捉えたのではないか？
この人は熟練した作家で、そうした力量の一部は固有の声とスタイルを作ることにある。AI がそれを識別でき、比較的ニッチな作家まで識別できるのは印象的だが、Facebook の投稿やテキストメッセージのような任意の文章から人を匿名解除する、より広い能力とは別問題だ
プロの音楽家なら、数秒聴くだけで有名な演奏家や録音を当てるのは難しくない。Bach を弾いていようが Rachmaninov を弾いていようが、スタイルがただ「その人」だからだ。しかし匿名の高校生の演奏者を、たとえ自分の生徒であっても、同じように当てるのは難しい。中央値はすぐに均質で特徴の薄いスタイルへ回帰する
- その通りだが、彼女が友人たちの散文で行った実験でも、モデルは彼らが「彼女の周辺の人たち」だということを掴んでいた
  だから、単に誰かが独特な声を発達させ、それを「消せない」という話だけではない
- 数十年前、パンク、ハードコア、ヘビーメタル関連のオンラインフォーラムにいたが、人種差別やナチ思想をまき散らす質の悪い連中が繰り返し入ってくる問題があった。追放されると新しいアカウントで戻り、「おとなしく」振る舞いながらより間接的なレトリックで語ろうとしていたが、フォーラム管理者が文章スタイルだけで人を見抜く感覚は信じがたいほどだった
  Web は人々が思っているほど匿名だったことはなく、この書き手は匿名性と身元秘匿が実際に何を意味するのかを混同しているように見える。独特な文体を持つ出版作家であることは、実質的に斧に指紋を残すのと似ている
- おおむね識別できる対象は、公に大量の文章を書いている人たちのようだ。自分が非公開の Discord サーバーに書いたコメントを大量に入れてみたが、どれも識別できないと言われたし、自分をよく知る人ならすぐ分かる勤務先の場所、住んでいる都市、妻の勤務先、自分の勤務先のような手がかりがあっても同じだった
  識別されるのはブロガー、記者、出版作家あたりのようだ
「この世で最も正直な人が書いた6行だけ見せてくれれば、その中からその人を絞首刑にできるだけの根拠を見つけ出してみせる」
Cardinal Richelieu、あるいは今なら AI
Opus 4.7 で2つ目の結果を何度も再現しようとしたができなかった。プロンプトをいろいろ変えても、毎回 合理主義コミュニティ の思想家たちを推測してきた

Opus 4.7は本当にKelseyを知っている

Opus 4.7の著者特定実験

ジャンルや時期が違っても続いた特定

教育関連の草稿

映画レビュー

ファンタジー小説

15年前の大学出願エッセイ

モデルの説明は信頼しにくい

AIと対話すると消える匿名性

まだ誰でも1段落で特定できるわけではない

文体は予想以上に識別しやすい

避ける方法と残る結論

関連記事

1件のコメント

Hacker Newsの意見