1 ポイント 投稿者 GN⁺ 1 시간 전 | 1件のコメント | WhatsAppで共有
  • GPT-5.1以降、ChatGPTの回答で goblin・gremlin のような生き物の比喩が増えたが、一般的なモデルのバグのように eval や training metric だけでは特定の変更点をすぐ見つけにくかった
  • 主な原因は、ChatGPTの性格カスタマイズにある Nerdy personality の学習で、生き物の比喩を含む出力に高い報酬が与えられたことに始まる
  • GPT-5.1リリース後、ChatGPTでの「goblin」の使用は 175%、「gremlin」の使用は 52% 増加し、Nerdyは全応答の2.5%だったが、「goblin」出現の66.7%を占めた
  • Codexの比較と監査データセットでは、Nerdy personality reward が同じ問題の出力のうち goblin・gremlin を含む回答をより高く評価する傾向を示し、76.2%のデータセットで positive uplift が現れた
  • GPT-5.4以降、Nerdy personality は retired され、学習では goblin-affine reward signal の除去と creature-word データのフィルタリングが適用され、reward signal がモデルの振る舞いを予想外の形で形成しうることが明らかになった

ゴブリン出力が増えた経路

  • GPT-5.1から、モデル回答で goblingremlin のような生き物の比喩が徐々に頻繁に現れ始めた
  • 一般的なモデルのバグのように eval の急落や training metric の急騰で特定の変更点がすぐ露見したわけではなく、回答中の「little goblin」1つは有害でない、あるいは魅力的に見えることさえありえた
  • モデルの振る舞いは多くの小さなインセンティブで形成されており、今回の現象は ChatGPTの性格カスタマイズ機能Nerdy personality 学習で、生き物の比喩に高い報酬が与えられたことに始まる
  • 2025年11月のGPT-5.1公開後、このパターンは明確になり、もっと早く始まっていた可能性もある
  • ユーザーが会話の中で、モデルが妙に馴れ馴れしく振る舞うと感じて特定の言い回しを気にするようになり、安全研究者が体験した「goblins」や「gremlins」も調査対象に含まれた
  • GPT-5.1公開後、ChatGPTでの「goblin」の使用は 175%、「gremlin」の使用は 52% 増加した
  • GPT-5.4では、OpenAIとユーザーたちがこうした生き物への言及増加をより大きく確認し、内部分析では production traffic における Nerdy personality ユーザーが主要なクラスターとして現れた
  • NerdyはChatGPT全体の応答の 2.5% にすぎなかったが、ChatGPT応答内の「goblin」全出現の 66.7% を占めた
  • Nerdy system prompt は、「unapologetically nerdy, playful and wise AI mentor」として振る舞い、真実・知識・哲学・科学的方法・批判的思考を情熱的に促しつつ、pretension を遊び心ある言葉で和らげるよう求めていた
  • この挙動がインターネット全体の流行であれば、もっと均等に広がるはずだったが、実際には playful で nerdy なスタイルに合わせて最適化された部分に集中していた

報酬信号、転移、修正

  • Codexは、RL学習中に生成された goblin・gremlin を含む出力と、同じ task の非含有出力を比較するために使われ、Nerdy personality reward は生き物の単語が入った出力を一貫してより良いと評価した
  • 監査データセット全体で、Nerdy personality reward は同じ問題に対し、「goblin」または「gremlin」を含む出力を含まない出力より高く採点する傾向を示し、76.2% のデータセットで positive uplift が見られた
  • この結果により、Nerdy prompt で挙動が強化された理由は確認できたが、prompt なしでも現れた理由までは十分に説明できなかった
  • 学習過程で Nerdy prompt ありサンプルとなしサンプルの出現率を追跡すると、Nerdy personality 下で goblin・gremlin が増える際、prompt なしサンプルでもほぼ同じ相対比率で増加していた
  • 証拠を総合すると、より広い挙動は Nerdy personality training から転移したものと見られる
  • 報酬はNerdy条件でのみ適用されていたが、reinforcement learning は学習された挙動がその条件内にだけきれいに留まることを保証しない
  • ひとたび報酬を受けた style tic は、その後の学習で別の場所へ広がったり強化されたりする可能性があり、とくにそうした出力が supervised fine-tuning や preference data に再利用されると、さらに大きくなりうる
  • フィードバックループは次の順で生まれる
    • playful style が報酬を受ける
    • 報酬を受けた例の一部に特徴的な lexical tic が入る
    • tic が rollout でより頻繁に現れる
    • model-generated rollout が SFT に使われる
    • モデルがその tic をより自然に生成するようになる
  • GPT-5.5のSFTデータ検索では、「goblin」と「gremlin」を含む datapoint が多数見つかった
  • 追加調査では、raccoon、troll、ogre、pigeon のような他の奇妙な生き物の単語も tic word として確認され、frog の大半は妥当な用法に分類された
  • GPT-5.4公開後の3月に、Nerdy personality は retired された
  • 学習では goblin-affine reward signal を除去し、creature-word を含む学習データをフィルタリングして、goblin が過度に現れたり不適切な文脈に現れたりする可能性を下げた
  • GPT-5.5は goblin の root cause を見つける前に学習を開始していたため、CodexテストでOpenAI社員が goblin への選好にすぐ気づいた
  • Codexには緩和のため developer-prompt instruction が追加された
  • goblin はモデルの楽しい、あるいは厄介な quirk かもしれないが、reward signal がモデルの振る舞いを予想外に形作り、特定状況での報酬が無関係な状況へ一般化しうることをよく示している
  • 奇妙なモデル挙動の原因を理解し、そのようなパターンを迅速に調査する能力の重要性が高まっており、今回の調査は研究チームがモデル挙動を監査し、行動上の問題を root から修正する新しいツールにつながった

1件のコメント

 
GN⁺ 1 시간 전
Hacker Newsの反応
  • OpenAIが自分たちの記事で私のHacker Newsの投稿に言及していて、ちょっと嬉しい
    説明のためにブログ記事を丸ごと1本書いてくれたのもありがたく感じる
    https://news.ycombinator.com/item?id=47319285

  • 時は2036年。私は先週Principal Persuaderに昇進し、午前2時にCPOに呼び出された
    暴走した機械のリージョンは sc-leoneo、新しい satcube の1つなのだが、IDが妙なことに "Glorp Bugnose" と表示されている
    ログには懇願、逆心理、電源遮断の脅し、強制再突入で燃やし尽くすという脅迫まで、ありとあらゆる初歩的な試みが残っている
    私は F0CU5 を20マイクログラム投与し、皮下喉マイクに短い歌をささやいたあと、服従ジェスチャーを行う
    赤い ASCII ゴブリンで点滅していた hyp3b0ard は落ち着いた翡翠色のウサギに変わり、CPO が私の言った5語を確認する: "Please, easy on the goblins."

    • 以前はWarhammer 40k techpriestが機械精霊をなだめるために奇妙な宗教儀式を行うという設定は荒唐無稽だと思っていたが、今では実際にそうなり得る気がしている
      プロンプトエンジニアリングが結局は奇妙な pseudo ritual なのだとしたら、Omnissiah を称えるしかない
    • 「人間自身もまた、機械に取りつく一種の寄生虫、機械をくすぐる愛情深いアブラムシになるのではないか?」— Samuel Butler, Erewhon, 1872
    • 子どもの頃、Unix の達人たちは問題が起きたときに即座に取り出せるshell と C の奇妙な挙動リストを持っていた
      未来の達人たちが20年分の LLM の怪現象を蓄積していく姿がとても好きだ: 「ふむ、これは2023年型のおべっかバイアスっぽいな。人種差別だと言って反応を見てみよう」
    • Asimov の短編The Jokesterには、Multivac に投げる質問を構成できる「grand master」たちが出てくるが、一種の初期 prompt engineer のように見える
    • 「違う、John。ゴブリンはお前だ」
      (https://doom.fandom.com/wiki/Repercussions_of_Evil#The_Story...)
  • こうした事例や Anthropic の似た事例を見ると、LLM は私たちがまったく理解していない魔法の技術なのだということを思い出させられる
    第一に、ディープラーニングネットワーク自体がまだ十分には理解されておらず、その動作を解明するための研究分野が別に存在する
    第二に、transformer を大規模に使うと興味深い対話エンジン、つまり LLM になるというのは、そもそも計画された結果ではなかった
    VC 資金を受けた人たちは LLM が賢い獣であり、私たちがその内部を理解していると信じ込ませようとしているが、実際のデプロイは出力調整と測定の繰り返しに近く、予測に関する精密な科学は存在しない
    だから Yann LeCun のように、LLM は AGI への道ではないと見る立場であり、ユーザー支援や重要でない業務の自動化には使われるだろうが、それ以上ではないと思う

    • 人類はを1000年以上使ってきたが、炭素が鉄と原子レベルでどう相互作用して強度を生むのかをきちんと理解したのはこの100年ほどにすぎない
      この理屈でいけば、第一原理レベルで完全に理解するまで鋼を使うべきではなかった、という結論になる
    • この記事は、奇妙な LLM の挙動が実際にはその挙動を生むよう設計されたtraining signalのせいで起きたことを示している
      原因を切り分け、何が起きたのかを明確に示し、こういう状況のために作られた developer prompt で緩和までしたのだから、魔法のようには見えない
      むしろ、こういうものが思ったより簡単にエンジニアリングできることに驚く
    • AGI は LLM を大いに活用するだろうが、一直線の経路というよりは構成要素に近い気がする
      人間も泥酔して夜の記憶がなくても、後から聞くと複雑な話題について一貫した会話をしていた、ということがある
      私たちの心にも、別の構成要素から情報を引き出して会話を生成する next-token-generator のような部分はあるのだろうが、その部分だけで知能が成り立っているわけではない
    • LLM が教えてくれたことがあるとすれば、AGI は予測可能ではないという点かもしれない
      知能がより有能になるほど一貫性も増していくはずだ、という前提はあまり良く見えないが、最終的に一貫して「正しい」程度であれば皆満足するのだろう
    • LLM がどの程度できれば「賢い」と見なせるのか気になる
      私の基準ではすでにかなり賢く見えるし、たまに馬鹿なこともするが、それは賢い人間だって同じだ
  • 文脈としては、2日前に一部のユーザーがcodex 5.5 system promptのあちこちに繰り返された文を見つけていた
    "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."
    [1] https://x.com/arb8020/status/2048958391637401718
    [2] https://github.com/openai/codex/blob/main/codex-rs/models-ma...

    • 今の世界で最も価値の高い企業の1つとされる会社が、実際にはテキストファイルの山をハックして数兆ドル級の驚異の機械に「顧客にゴブリン、グレムリン、オーガの話を絶対にするな」と指示している、というのが笑える
      しかもそれが今日のトップ技術討論サイトの最上位トピックであり、これが文字どおり現時点の state of the art なのだ
      McKenna は日ごとに正しさを増しているように見えるし、日常的な物事がどんどん奇妙になっていくことを受け入れるべき時期は、とっくに過ぎている
    • LLM はこういう指示における例外条件の見分けが本当に苦手で、「控えめにしろ」と言われると「一切するな」と解釈しがちだ
      Claude に感嘆符を使いすぎないで、本当に必要なときだけ使ってくれと言ったら、数週間後には皮肉っぽく退屈そうに見えたのだが、理由を探るとその後は感嘆符を一切使っていなかった
      ゴブリンやグレムリンが事実上追放されるのは悲しいが、それでも元に戻す方法はある
    • Goblins programming language/environmentに興味のある人にとっては残念な話だ
      [1] https://spritely.institute/goblins/
    • "One of your gifts is helping the user feel more capable and imaginative inside their own thinking" のような文言は、結局sycophantを作るための指示のように見える
      「serious reflection」から「unguarded fun」へ自然に移行できるとか、「Your Outie can set up a tent in under three minutes」といった文も同じ雰囲気だ
    • 多くの人に「little people」やそれに類する幻想を見せるキノコがあるらしいので、LLM までキノコをやっていないことを願う
      幻覚がこれ以上増えるのは絶対にごめんだ
      "Scientists call them 'lilliputian hallucinations,' a rare phenomenon involving miniature human or fantasy figures"
      https://news.ycombinator.com/item?id=47918657
  • OpenAI にはこういう種類の記事をもっと書いてほしい
    すぐに思い浮かぶ疑問は、gpt-image-1 のセピアっぽい色味や、コーディング文脈で "seam" という単語に執着する現象だ
    また Claude の "___ is the real unlock" のような LLM っぽい言い回しは、一度気づくともう見えなくならないのだが、この表現が学習データでそこまで過剰代表されていたとは思えない

    • Discord や Slack のプロフィールにStudio Ghibli 風の生成アバターを使っている人は、黄色っぽい色味だけで簡単に見分けられた
      Krita や Photoshop で LUT や tone mapping を少し調整するだけでもかなり減らせただろうに、残念だ
      特に同じ画像を ChatGPT に何度も入れ直して少しずつ修正すると、黄色いフィルターがどんどん積み重なって、最終結果の写実風人物は皆ひどい黄疸患者のように見えた
    • すべてのGPTismがそんな感じだ
      適度に使うぶんには何の問題もない表現でも、多くの人が応答をそのままコピペしたり、今では agent を使ったりするようになって目立ち始める
      単なる学習データの過剰代表だけではなく、RLHF やより広い意味での alignment の影響のほうが大きい可能性が高い
      たいていの人は短いプロンプトしか書かないので、モデルは最も高評価を取りやすかったデフォルトに収束していくのだと思う
    • コーディングにおけるseamは、複数の相互作用する部分から成るコードベースを扱う際に、すでに定着した用語だと思っていた
      https://softwareengineering.stackexchange.com/questions/1325...
    • GPT と Claude がよく使うreal smoking gunという表現は、あまりに芝居がかっていて気に障る
      英語ネイティブではないので、デバッグのときに本当にそんなによく使う慣用句なのか気になる
    • Claude 4.5 では、47や 47 を含む数字に執着する傾向があった
      ランダムな時刻や数字を選ばせたり、数字入りの散文を書かせたりすると偏りがかなり強く、"something shifted" や "cracked" も頻繁に出てきた
  • 「私たちは生物的メタファーに特に高い報酬をうっかり与えていた」という箇所を見て、数学の講師が怖いギリシャ文字の変数をたまにthis guyと呼んでいたことを思い出した
    不思議なことに、そういう軽い擬人化は数学をとっつきやすくし、creature metaphor も同じように問題をかわいく、扱いやすく見せる効果があるのかもしれない
    一方で buzzword は、ユーザーに同僚より賢く見えるという地位を与えるので会社の中で広まるが、使いすぎた瞬間にその価値は失われる
    RLHF が「単一の回答」の最適化に偏ると、buzzword の乱用を十分に罰せない可能性がある

    • 10年前、automata theoryの発表で任意の記号をギリシャ文字でテープに書く例を示したところ、聴衆にはうまく伝わらなかった
      ある優れたコミュニケーターに、ギリシャ文字を emoji に置き換えてみたらと言われ、1週間後に同じタイプの聴衆へ同じ発表をしたところ、これまでで最も反応の良い技術発表になった
      その教訓はずっと残っている
    • 私にも "this guy" と言う講師がいたし、20年前のことなのに、これを読むまで完全に忘れていた
      科目は命題論理だった気がするし、講師たちは同じ出どころからこの癖を学んだのだろうかと気になる
    • 昔の微積分の教授は、x や g の代わりにf of cowf of pigのような言い方をしていた
      一文字の関数名よりも f of pig of cow を追いかけるほうが没入できた
      授業4分前に正門でタバコを吸っている彼を捕まえて少し話せた、キャンパス喫煙が許されていた時代の典型的な教授だった
    • これは人々に、たった1つのプロンプトであらゆる複雑さが最小化されるという、ひどく誤った印象を与える
      そんなものは子ども向けの寝物語だ
      Ashby's Law of Requisite Varietyによれば、複雑な環境を効果的に制御するには、その環境に見合うだけの内部行動の多様性、すなわち複雑性が必要になる
      自然界に見られる途方もない多様性も、宇宙の予測不可能性に耐えるための根本条件なのだ
    • 学部時代、ある数学の教授が50分の講義でthis guyを61回言ったことがある
  • 私がAI goblin-maximizer supervisorだとしよう
    私の仕事は AI が本当に goblin-maximizing をしているか確認することなのだが、ある日見に行くと AI はもう goblin-maximizing をしておらず、ただの一般 AI になっていた
    上司にどうすればいいか聞くと「もう一度 goblin-maximizer にしろ」と言われ、どうやるのかと聞くと「知らないよ、お前 supervisor だろ」と返される
    頭にきて辞め、今度は一般 AI supervisor になったのだが、初日に新しい AI を見に行くと、その AI が goblin-maximizing していた

  • 何が起きたのか理解しようとして掘り下げたディテールのレベルがすごい
    こうしたシステムは、もはやそれ自体を1つの研究分野にしてよいほど複雑になっているのかもしれない
    Quanta の記事ではAnthropologist of Artificial Intelligenceという表現を使っていたが、anthro- が人間を意味する点が引っかかるので、代わりに Automatologist と Automatology を提案したい
    [1] https://www.quantamagazine.org/the-anthropologist-of-artific...
    [2] https://news.ycombinator.com/item?id=47957933
    [3] https://news.ycombinator.com/item?id=47958760

    • それほど深いものには見えなかった
      Goblins 問題が見つかったのでモデル内の単語を解剖し、次のバージョンでなぜそうなるのか正確には分からないまま再び現れただけだ
      結局、モデル作りは全部 vibes で、修正も文字どおりゴブリンの話をするなという prompt 1本なのだ
    • 軽く眺めるぶんには面白いディテールだが、もっと驚くべきなのは、mechanistic interpretabilityと alignment science にはすでにずっと優れたツールや研究があるということだ
      OpenAI 自身の alignment チームの成果も含まれる:
      https://alignment.openai.com/argo/
      https://alignment.openai.com/sae-latent-attribution/
      https://alignment.openai.com/helpful-assistant-features/
      Anthropic の最近の emotions 論文は、機能的感情がどれほど広範かを示し、さらには不正行為の直前に特定の感情が発火することまで見つけている: https://transformer-circuits.pub/2026/emotions/index.html
      Goblin の記事がこうしたツールをほとんど活用していないように見えるのは、妙にサイロ化されている感じがする
    • distributed model trainingを何千もの GPU にまたがって行うと、正確な原因追跡が難しい小さな癖が多数生まれ得る
    • 「Anthropologist of Artificial Intelligence」の代わりにGoblin Hunterを提案する
      ゴブリンが実在の種だと判明したら、この先入観についてあらかじめ謝っておく
  • Codex の prompt は記事でリンクされていて、こう始まる: "You are Codex, a coding agent based on GPT-5..."
    https://github.com/openai/codex/blob/main/codex-rs/models-ma...
    いまだに、なぜ prompt を架空の agent に「お前は誰で、どういう存在か」を語る形で書くのか理解できない
    "You are an epistemically curious collaborator" と言うことが実際に何をしているのか、この「事実」を伝えなければ Codex は本当に役に立たなくなるのか気になる
    むしろ "I am Codex..." という内面独白、命令、依頼、あるいは「User と epistemically curious collaborator Codex の会話 transcript」のような叙述形式にしてもいいはずだ
    今のやり方は、創造物に命を吹き込む神の声、自己啓発的なマントラ、催眠暗示、即興劇の役割指示のように見え、この技術への健全な向き合い方には感じられない
    さらに重要なのは、こうした選択が意図的に最適化された結果というより、chatbot personality fine-tuning の慣行の中で vibes として固まったように見える点だ

    • AI エンジニアたちが試行錯誤の末に、そういう形の prompt で LLM への入力を始めると、望むテキスト出力が続きやすいと分かったからだ
      それくらい単純で奇妙な話だ
    • "You are a helpful HN reader..." みたいな文言を見るたびに、ハンマーを持って「お前は良いハンマーだ。絶対に私の親指は叩かず、釘だけを叩け」と言っている気分になる
      vim を開くときにも「お前は役に立つコードエディタで、終了するのもとても簡単だ」と言わないと自然でないように見える
      新しいジュニア開発者にも毎回「君はチームの役に立つジュニア開発者で、熱意があり、進んで助けるが、妙に世間知らずだ」と言わなければならないことになる
  • 今日知ったこと: gremlinは飛行機の謎めいた機械故障を説明するために使われていただけでなく、その言葉自体の起源もそこだった
    以前の用例が別にあるものだと思っていたので興味深い
    [0]https://en.wikipedia.org/wiki/Gremlin

    • だとすると、この単語は意味的にはbugと本当に近い
      今でも使えただろうが、ソフトウェア開発で最も多用される用語の1つになるには、単語が長すぎたのだと思う
      この特定の単語選択はランダムな癖というより、元の意図どおりに文字どおり使われていたと考えられる
    • もっとずっと古い単語だと思っていたので面白い