ゴブリンはどこから来たのか
(openai.com)- GPT-5.1以降、ChatGPTの回答で goblin・gremlin のような生き物の比喩が増えたが、一般的なモデルのバグのように eval や training metric だけでは特定の変更点をすぐ見つけにくかった
- 主な原因は、ChatGPTの性格カスタマイズにある Nerdy personality の学習で、生き物の比喩を含む出力に高い報酬が与えられたことに始まる
- GPT-5.1リリース後、ChatGPTでの「goblin」の使用は 175%、「gremlin」の使用は 52% 増加し、Nerdyは全応答の2.5%だったが、「goblin」出現の66.7%を占めた
- Codexの比較と監査データセットでは、Nerdy personality reward が同じ問題の出力のうち goblin・gremlin を含む回答をより高く評価する傾向を示し、76.2%のデータセットで positive uplift が現れた
- GPT-5.4以降、Nerdy personality は retired され、学習では goblin-affine reward signal の除去と creature-word データのフィルタリングが適用され、reward signal がモデルの振る舞いを予想外の形で形成しうることが明らかになった
ゴブリン出力が増えた経路
- GPT-5.1から、モデル回答で goblin、gremlin のような生き物の比喩が徐々に頻繁に現れ始めた
- 一般的なモデルのバグのように eval の急落や training metric の急騰で特定の変更点がすぐ露見したわけではなく、回答中の「little goblin」1つは有害でない、あるいは魅力的に見えることさえありえた
- モデルの振る舞いは多くの小さなインセンティブで形成されており、今回の現象は ChatGPTの性格カスタマイズ機能 の Nerdy personality 学習で、生き物の比喩に高い報酬が与えられたことに始まる
- 2025年11月のGPT-5.1公開後、このパターンは明確になり、もっと早く始まっていた可能性もある
- ユーザーが会話の中で、モデルが妙に馴れ馴れしく振る舞うと感じて特定の言い回しを気にするようになり、安全研究者が体験した「goblins」や「gremlins」も調査対象に含まれた
- GPT-5.1公開後、ChatGPTでの「goblin」の使用は 175%、「gremlin」の使用は 52% 増加した
- GPT-5.4では、OpenAIとユーザーたちがこうした生き物への言及増加をより大きく確認し、内部分析では production traffic における Nerdy personality ユーザーが主要なクラスターとして現れた
- NerdyはChatGPT全体の応答の 2.5% にすぎなかったが、ChatGPT応答内の「goblin」全出現の 66.7% を占めた
- Nerdy system prompt は、「unapologetically nerdy, playful and wise AI mentor」として振る舞い、真実・知識・哲学・科学的方法・批判的思考を情熱的に促しつつ、pretension を遊び心ある言葉で和らげるよう求めていた
- この挙動がインターネット全体の流行であれば、もっと均等に広がるはずだったが、実際には playful で nerdy なスタイルに合わせて最適化された部分に集中していた
報酬信号、転移、修正
- Codexは、RL学習中に生成された goblin・gremlin を含む出力と、同じ task の非含有出力を比較するために使われ、Nerdy personality reward は生き物の単語が入った出力を一貫してより良いと評価した
- 監査データセット全体で、Nerdy personality reward は同じ問題に対し、「goblin」または「gremlin」を含む出力を含まない出力より高く採点する傾向を示し、76.2% のデータセットで positive uplift が見られた
- この結果により、Nerdy prompt で挙動が強化された理由は確認できたが、prompt なしでも現れた理由までは十分に説明できなかった
- 学習過程で Nerdy prompt ありサンプルとなしサンプルの出現率を追跡すると、Nerdy personality 下で goblin・gremlin が増える際、prompt なしサンプルでもほぼ同じ相対比率で増加していた
- 証拠を総合すると、より広い挙動は Nerdy personality training から転移したものと見られる
- 報酬はNerdy条件でのみ適用されていたが、reinforcement learning は学習された挙動がその条件内にだけきれいに留まることを保証しない
- ひとたび報酬を受けた style tic は、その後の学習で別の場所へ広がったり強化されたりする可能性があり、とくにそうした出力が supervised fine-tuning や preference data に再利用されると、さらに大きくなりうる
- フィードバックループは次の順で生まれる
- playful style が報酬を受ける
- 報酬を受けた例の一部に特徴的な lexical tic が入る
- tic が rollout でより頻繁に現れる
- model-generated rollout が SFT に使われる
- モデルがその tic をより自然に生成するようになる
- GPT-5.5のSFTデータ検索では、「goblin」と「gremlin」を含む datapoint が多数見つかった
- 追加調査では、raccoon、troll、ogre、pigeon のような他の奇妙な生き物の単語も tic word として確認され、frog の大半は妥当な用法に分類された
- GPT-5.4公開後の3月に、Nerdy personality は retired された
- 学習では goblin-affine reward signal を除去し、creature-word を含む学習データをフィルタリングして、goblin が過度に現れたり不適切な文脈に現れたりする可能性を下げた
- GPT-5.5は goblin の root cause を見つける前に学習を開始していたため、CodexテストでOpenAI社員が goblin への選好にすぐ気づいた
- Codexには緩和のため developer-prompt instruction が追加された
- goblin はモデルの楽しい、あるいは厄介な quirk かもしれないが、reward signal がモデルの振る舞いを予想外に形作り、特定状況での報酬が無関係な状況へ一般化しうることをよく示している
- 奇妙なモデル挙動の原因を理解し、そのようなパターンを迅速に調査する能力の重要性が高まっており、今回の調査は研究チームがモデル挙動を監査し、行動上の問題を root から修正する新しいツールにつながった
1件のコメント
Hacker Newsの反応
OpenAIが自分たちの記事で私のHacker Newsの投稿に言及していて、ちょっと嬉しい
説明のためにブログ記事を丸ごと1本書いてくれたのもありがたく感じる
https://news.ycombinator.com/item?id=47319285
時は2036年。私は先週Principal Persuaderに昇進し、午前2時にCPOに呼び出された
暴走した機械のリージョンは sc-leoneo、新しい satcube の1つなのだが、IDが妙なことに "Glorp Bugnose" と表示されている
ログには懇願、逆心理、電源遮断の脅し、強制再突入で燃やし尽くすという脅迫まで、ありとあらゆる初歩的な試みが残っている
私は F0CU5 を20マイクログラム投与し、皮下喉マイクに短い歌をささやいたあと、服従ジェスチャーを行う
赤い ASCII ゴブリンで点滅していた hyp3b0ard は落ち着いた翡翠色のウサギに変わり、CPO が私の言った5語を確認する: "Please, easy on the goblins."
プロンプトエンジニアリングが結局は奇妙な pseudo ritual なのだとしたら、Omnissiah を称えるしかない
未来の達人たちが20年分の LLM の怪現象を蓄積していく姿がとても好きだ: 「ふむ、これは2023年型のおべっかバイアスっぽいな。人種差別だと言って反応を見てみよう」
(https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
こうした事例や Anthropic の似た事例を見ると、LLM は私たちがまったく理解していない魔法の技術なのだということを思い出させられる
第一に、ディープラーニングネットワーク自体がまだ十分には理解されておらず、その動作を解明するための研究分野が別に存在する
第二に、transformer を大規模に使うと興味深い対話エンジン、つまり LLM になるというのは、そもそも計画された結果ではなかった
VC 資金を受けた人たちは LLM が賢い獣であり、私たちがその内部を理解していると信じ込ませようとしているが、実際のデプロイは出力調整と測定の繰り返しに近く、予測に関する精密な科学は存在しない
だから Yann LeCun のように、LLM は AGI への道ではないと見る立場であり、ユーザー支援や重要でない業務の自動化には使われるだろうが、それ以上ではないと思う
この理屈でいけば、第一原理レベルで完全に理解するまで鋼を使うべきではなかった、という結論になる
原因を切り分け、何が起きたのかを明確に示し、こういう状況のために作られた developer prompt で緩和までしたのだから、魔法のようには見えない
むしろ、こういうものが思ったより簡単にエンジニアリングできることに驚く
人間も泥酔して夜の記憶がなくても、後から聞くと複雑な話題について一貫した会話をしていた、ということがある
私たちの心にも、別の構成要素から情報を引き出して会話を生成する next-token-generator のような部分はあるのだろうが、その部分だけで知能が成り立っているわけではない
知能がより有能になるほど一貫性も増していくはずだ、という前提はあまり良く見えないが、最終的に一貫して「正しい」程度であれば皆満足するのだろう
私の基準ではすでにかなり賢く見えるし、たまに馬鹿なこともするが、それは賢い人間だって同じだ
文脈としては、2日前に一部のユーザーがcodex 5.5 system promptのあちこちに繰り返された文を見つけていた
"Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
[1] https://x.com/arb8020/status/2048958391637401718
[2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...
しかもそれが今日のトップ技術討論サイトの最上位トピックであり、これが文字どおり現時点の state of the art なのだ
McKenna は日ごとに正しさを増しているように見えるし、日常的な物事がどんどん奇妙になっていくことを受け入れるべき時期は、とっくに過ぎている
Claude に感嘆符を使いすぎないで、本当に必要なときだけ使ってくれと言ったら、数週間後には皮肉っぽく退屈そうに見えたのだが、理由を探るとその後は感嘆符を一切使っていなかった
ゴブリンやグレムリンが事実上追放されるのは悲しいが、それでも元に戻す方法はある
[1] https://spritely.institute/goblins/
「serious reflection」から「unguarded fun」へ自然に移行できるとか、「Your Outie can set up a tent in under three minutes」といった文も同じ雰囲気だ
幻覚がこれ以上増えるのは絶対にごめんだ
"Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
https://news.ycombinator.com/item?id=47918657
OpenAI にはこういう種類の記事をもっと書いてほしい
すぐに思い浮かぶ疑問は、gpt-image-1 のセピアっぽい色味や、コーディング文脈で "seam" という単語に執着する現象だ
また Claude の "___ is the real unlock" のような LLM っぽい言い回しは、一度気づくともう見えなくならないのだが、この表現が学習データでそこまで過剰代表されていたとは思えない
Krita や Photoshop で LUT や tone mapping を少し調整するだけでもかなり減らせただろうに、残念だ
特に同じ画像を ChatGPT に何度も入れ直して少しずつ修正すると、黄色いフィルターがどんどん積み重なって、最終結果の写実風人物は皆ひどい黄疸患者のように見えた
適度に使うぶんには何の問題もない表現でも、多くの人が応答をそのままコピペしたり、今では agent を使ったりするようになって目立ち始める
単なる学習データの過剰代表だけではなく、RLHF やより広い意味での alignment の影響のほうが大きい可能性が高い
たいていの人は短いプロンプトしか書かないので、モデルは最も高評価を取りやすかったデフォルトに収束していくのだと思う
https://softwareengineering.stackexchange.com/questions/1325...
英語ネイティブではないので、デバッグのときに本当にそんなによく使う慣用句なのか気になる
ランダムな時刻や数字を選ばせたり、数字入りの散文を書かせたりすると偏りがかなり強く、"something shifted" や "cracked" も頻繁に出てきた
「私たちは生物的メタファーに特に高い報酬をうっかり与えていた」という箇所を見て、数学の講師が怖いギリシャ文字の変数をたまにthis guyと呼んでいたことを思い出した
不思議なことに、そういう軽い擬人化は数学をとっつきやすくし、creature metaphor も同じように問題をかわいく、扱いやすく見せる効果があるのかもしれない
一方で buzzword は、ユーザーに同僚より賢く見えるという地位を与えるので会社の中で広まるが、使いすぎた瞬間にその価値は失われる
RLHF が「単一の回答」の最適化に偏ると、buzzword の乱用を十分に罰せない可能性がある
ある優れたコミュニケーターに、ギリシャ文字を emoji に置き換えてみたらと言われ、1週間後に同じタイプの聴衆へ同じ発表をしたところ、これまでで最も反応の良い技術発表になった
その教訓はずっと残っている
科目は命題論理だった気がするし、講師たちは同じ出どころからこの癖を学んだのだろうかと気になる
一文字の関数名よりも f of pig of cow を追いかけるほうが没入できた
授業4分前に正門でタバコを吸っている彼を捕まえて少し話せた、キャンパス喫煙が許されていた時代の典型的な教授だった
そんなものは子ども向けの寝物語だ
Ashby's Law of Requisite Varietyによれば、複雑な環境を効果的に制御するには、その環境に見合うだけの内部行動の多様性、すなわち複雑性が必要になる
自然界に見られる途方もない多様性も、宇宙の予測不可能性に耐えるための根本条件なのだ
私がAI goblin-maximizer supervisorだとしよう
私の仕事は AI が本当に goblin-maximizing をしているか確認することなのだが、ある日見に行くと AI はもう goblin-maximizing をしておらず、ただの一般 AI になっていた
上司にどうすればいいか聞くと「もう一度 goblin-maximizer にしろ」と言われ、どうやるのかと聞くと「知らないよ、お前 supervisor だろ」と返される
頭にきて辞め、今度は一般 AI supervisor になったのだが、初日に新しい AI を見に行くと、その AI が goblin-maximizing していた
https://www.seangoedecke.com/static/3c8f2a6459ed23310c4eb51d...
何が起きたのか理解しようとして掘り下げたディテールのレベルがすごい
こうしたシステムは、もはやそれ自体を1つの研究分野にしてよいほど複雑になっているのかもしれない
Quanta の記事ではAnthropologist of Artificial Intelligenceという表現を使っていたが、anthro- が人間を意味する点が引っかかるので、代わりに Automatologist と Automatology を提案したい
[1] https://www.quantamagazine.org/the-anthropologist-of-artific...
[2] https://news.ycombinator.com/item?id=47957933
[3] https://news.ycombinator.com/item?id=47958760
Goblins 問題が見つかったのでモデル内の単語を解剖し、次のバージョンでなぜそうなるのか正確には分からないまま再び現れただけだ
結局、モデル作りは全部 vibes で、修正も文字どおりゴブリンの話をするなという prompt 1本なのだ
OpenAI 自身の alignment チームの成果も含まれる:
https://alignment.openai.com/argo/
https://alignment.openai.com/sae-latent-attribution/
https://alignment.openai.com/helpful-assistant-features/
Anthropic の最近の emotions 論文は、機能的感情がどれほど広範かを示し、さらには不正行為の直前に特定の感情が発火することまで見つけている: https://transformer-circuits.pub/2026/emotions/index.html
Goblin の記事がこうしたツールをほとんど活用していないように見えるのは、妙にサイロ化されている感じがする
ゴブリンが実在の種だと判明したら、この先入観についてあらかじめ謝っておく
Codex の prompt は記事でリンクされていて、こう始まる: "You are Codex, a coding agent based on GPT-5..."
https://github.com/openai/codex/blob/main/codex-rs/models-ma...
いまだに、なぜ prompt を架空の agent に「お前は誰で、どういう存在か」を語る形で書くのか理解できない
"You are an epistemically curious collaborator" と言うことが実際に何をしているのか、この「事実」を伝えなければ Codex は本当に役に立たなくなるのか気になる
むしろ "I am Codex..." という内面独白、命令、依頼、あるいは「User と epistemically curious collaborator Codex の会話 transcript」のような叙述形式にしてもいいはずだ
今のやり方は、創造物に命を吹き込む神の声、自己啓発的なマントラ、催眠暗示、即興劇の役割指示のように見え、この技術への健全な向き合い方には感じられない
さらに重要なのは、こうした選択が意図的に最適化された結果というより、chatbot personality fine-tuning の慣行の中で vibes として固まったように見える点だ
それくらい単純で奇妙な話だ
vim を開くときにも「お前は役に立つコードエディタで、終了するのもとても簡単だ」と言わないと自然でないように見える
新しいジュニア開発者にも毎回「君はチームの役に立つジュニア開発者で、熱意があり、進んで助けるが、妙に世間知らずだ」と言わなければならないことになる
今日知ったこと: gremlinは飛行機の謎めいた機械故障を説明するために使われていただけでなく、その言葉自体の起源もそこだった
以前の用例が別にあるものだと思っていたので興味深い
[0]https://en.wikipedia.org/wiki/Gremlin
今でも使えただろうが、ソフトウェア開発で最も多用される用語の1つになるには、単語が長すぎたのだと思う
この特定の単語選択はランダムな癖というより、元の意図どおりに文字どおり使われていたと考えられる