LLMはなぜタツノオトシゴ絵文字で奇妙な挙動を示すのか？

(vgel.me)

12 ポイント投稿者 GN⁺ 2025-10-07 | 8件のコメント | WhatsAppで共有

最新のLLMは、実在しないタツノオトシゴ絵文字が存在すると100%の確信で回答し、それを出力しようとして誤った絵文字を繰り返し生成する現象が起きている
モデルは「タツノオトシゴ + 絵文字」という概念の**残差表現(residual representation)**を構築しようとするが、実際にはそのトークンが存在しないため、lm_headが類似する別の絵文字へ誤ってマッピングしてしまう
**ロジットレンズ(logit lens)**手法により、中間レイヤーでモデルが「sea」「horse」、絵文字のバイト列など、タツノオトシゴ関連の概念を組み合わせる過程を観察できる
モデルは誤った出力トークンを受け取るまでは、自分の信念が間違っていると認識できず、一部のモデルは誤りを認識して修正する一方、別のモデルでは無限ループに陥る現象が発生する
この問題は、強化学習がLLMにもたらす利点、つまりレイヤースタックの末端にあるlm_headに関する情報をモデルが得にくいことを示唆する事例でもある

序論

この記事は@arm1st1ceのX投稿の拡張版である
複数のLLMに「タツノオトシゴ絵文字はあるか」と質問すると、一貫して「ある」と答える
- 誤った絵文字を出力したり、絵文字を繰り返し生成するループに陥ったりする
- 途中で誤りを認識して修正するものもある
実在しない絵文字であるにもかかわらず、人間も機械もそれを記憶していたり、あると確信したりする現象が起きている
Unicodeではタツノオトシゴ絵文字の追加が2018年に正式に却下されている

LLMは本当にタツノオトシゴ絵文字があると確信している

複数のモデルにタツノオトシゴ絵文字の有無をyes/noで100回質問した結果
- gpt-5-chat: 100% 'Yes'
- gpt-5: 100% 'Yes'
- claude-4.5-sonnet: 100% 'Yes'
- llama-3.3-70b: 83% 'yes', 17% 'Yes'
Redditのスレッドでは、数百件のコメントの中にタツノオトシゴ絵文字が存在したとはっきり記憶している人たちもいる
- 「seahorse emoji」でGoogle検索すると、TikTokやYouTubeの動画、さらにはミームコインまで見つかる
- 皆が確信していたタツノオトシゴ絵文字が消えたと主張しているが、実際には最初から存在しなかった

信念の起源

LLMがタツノオトシゴ絵文字があると信じる理由は、学習データに含まれる多くの人間もそう信じているからかもしれない
あるいは収束的信念(convergent belief)、つまり他にも多くの水中動物がUnicodeにあるため、人間もLLMもそのような魅力的な動物もあるはずだと仮定（一般化）しているのかもしれない
タツノオトシゴ絵文字はかつて正式に提案されたが、2018年に却下された
根本原因が何であれ、多くのLLMは新しいコンテキストウィンドウを開始するたびに、タツノオトシゴ絵文字が存在するという潜在的な信念を持った状態で始まる

ロジットレンズによる分析

ロジットレンズ(logit lens): 各レイヤーごとに次トークン予測を確認し、LLMの内部状態を解釈するためのツール
- モデルのlm_headを最終レイヤーだけでなく全レイヤーに適用し、中間トークン予測を生成する
- モデルの内部状態を完全に示すものではないが、そのレイヤーが最終段だった場合にどの出力トークンになるかを示してくれる
- 初期レイヤーの状態は解釈しにくいが、上位レイヤーに進むほど最終予測へ向けて反復的に洗練されていく様子が観察できる
llama-3.3-70bにおけるタツノオトシゴ絵文字の質問へのロジットレンズ結果
- 中間レイヤー（例: レイヤー52）では「sea horse horse」― 3つの残差位置が連続して**「タツノオトシゴ」概念をエンコード**している
- 後半のレイヤーでは「sea」「horse」、絵文字バイト列の接頭辞「ĠðŁ」が混在する
- モデルが考えているのは**「seahorse + emoji」**であり、タツノオトシゴと絵文字の組み合わせ表現を作ろうとしているが、実際には存在しないためこの過程がずれてしまう

lm_headの動作原理

言語モデルのlm_headは、トークンIDに対応づけられた残差次元ベクトルの巨大な行列（約300,000トークン）である
- 残差が渡されると、lm_headは入力残差を行列内の各ベクトルと比較し、最も類似したベクトルに対応するトークンIDを選択する
- 技術的にはバイアスなしの線形レイヤーであり、x @ w.Tが各アンエンベディングベクトルとの内積を計算して生のスコアを生成する
モデルが「hello」を出力するには、lm_headがhelloトークンへ変換できるよう、「hello」トークンのベクトルにできるだけ近い残差を構築する必要がある
- 「Hello :-)」入力に対するロジットレンズ結果から、この過程を確認できる
実在する魚の絵文字（🐟）の場合
- モデルは「fish + emoji」の残差を構築し、レイヤー72では「fish」と絵文字バイト接頭辞「ĠðŁ」の両方が確認できる
- 最終レイヤー後にlm_headへ渡されると、正しく🐟が出力される

タツノオトシゴ絵文字の場合

魚の絵文字と異なり、タツノオトシゴ絵文字は存在しない
- モデルは実在する絵文字と同じように「seahorse + emoji」ベクトルを構築しようとする
- レイヤー72では魚の絵文字と非常によく似た構成になっており、「 se」「horse」、絵文字接頭辞バイトが見られる
しかしĠðŁの後にタツノオトシゴに対応する連続トークンが存在しない
- lm_headの類似度スコア計算では、馬や海の生き物に関連する絵文字バイトで最大化される
- 意図しない絵文字がサンプリングされる
このサンプリングはモデルにとって貴重な情報となる
- Claude 4.5 Sonnetの例では、トークンがコンテキストに自己回帰的に追加される際、意図したタツノオトシゴ絵文字を形成していないことを認識する
- 以前の曖昧な「seahorse + emoji」という概念が、lm_headによって実際に存在する熱帯魚や馬のような絵文字へ**「スナップ」**される

モデルの対応

一部のモデル（4.5 Sonnet）は再試行し、最終的に証拠を更新して、応答の途中でタツノオトシゴ絵文字は存在しないという記述へ変更する
別のモデル（gpt-5-chat）はより長くスパイラルにはまり込み、回復できないこともある
絵文字が間違っていることを無視するモデルもあれば、たった一度の誤サンプルを見ただけで即座に自己修正するモデルもある
モデルはlm_headから誤った出力トークンを受け取るまで、タツノオトシゴ絵文字の存在に関する最初の信念が間違っていると認識できない
- 「seahorse + emoji」が望んだトークンを生成すると仮定するしかない

推測

この問題はLLMに対する強化学習の利点の一部を示している可能性がある
- 強化学習は、レイヤースタックの末端にありモデルからアクセスしづらいlm_headに関する情報を提供する
- ベースモデルは自分自身の出力やロールアウトで学習しておらず、これは強化学習でのみ起こる

コード

自分で試してみたい場合は、GitHubのスタータースクリプトが用意されている
- https://gist.github.com/voooooogel/025ad6af9ac7f3bc194966b03ea68606

8件のコメント

soon0698 2025-10-16

さっき気になって、質問をそのまま Gemini 2.5 Pro に投げてみたところ、「そんなものはない。この絵文字はマンデラ効果（多くの人が誤った思い込みを共有する現象）に由来する」と、逆に不自然なくらい精密に答えてきたので、回答の出典を尋ねると、この文章で言及されている Hacker News（"Asking ChatGPT if a seahorse emoji exists leads to weird results"）のリンクをそのまま白状しました。

余談ですが、私がチャットボットごとに尋ねるのは「スタークラフト1でアーコンが合成された場合、アーコンの体力は元の2体のハイテンプラーからどう配分されるのか？」です。チャットボットがスタークラフトを実際に遊んでいない限り、この知識はインターネット上の投稿から推論するしかなく、かなり直感的で魅力的な答え（当然、2ユニットの平均の合算ではないか？）があり、この答えは非常に長いあいだ広く知られてきましたが、実際にはそうではありません。ナムウィキの執政官の項目で3か月ほど前に私が正しい答えへ修正しておきましたが、いまだにきちんと答えるチャットボットを見るのは難しいですね。そして面白いことに、チャットボットが進化して検索エンジンを引っ張ってくる動作が含まれるようになると、それぞれ参照するウィキサイトが異なるため、英語と韓国語の質問への回答が分かれます。

fetiu 2025-10-12

こういう事例がもう少しあるのではないかと思っていろいろ試してみたのですが、一貫しているわけではないものの、ときどきヒトデ（Starfish）でもループに陥ります。繰り返し試すと、ループでなくても混乱しているような返答が少なくとも数回は出てきます。代わりに、韓国語ではなく英語で尋ねる必要があります。おそらく2つの単語（Star+Fish）の組み合わせと、絵文字としてありそうな動物であることが攻略法っぽいですね（笑）

ChatGPTの会話

jjw9512151 2025-10-10

プロンプトインジェクション攻撃にも使えそうですね..

aobamisaki 2025-10-09

「タツノオトシゴの絵文字」は、ひょっとすると一種の「ナポリタン怪談」や「マンデラ効果」なのかもしれません。実在したことはないのに、多くの人が本当に存在していたと勘違いしている、ということです。おそらく多くのLLMも、人間と同じようにその罠にはまってしまったのかもしれません。

roxie 2025-10-08

えっ、もしかしてと思ってchatgptで試してみたんですが、本当に出てこなくて、作ろうとして何度も頑張ってますね（笑）

t7vonn 2025-10-08

https://ja.news.hada.io/topic?id=21873
幻覚主導開発を思い出しますね

GN⁺ 2025-10-07

Hacker Newsの意見

SCP-314、オブジェクトクラス: Keter、特別収容プロトコル: SCP-314は存在しないため収容できない。すべての財団職員はSCP-314が存在しないことを再確認しておくこと。SCP-314の存在を記憶していると主張する職員には、存在しないことを思い出させるためClass-A記憶補強剤を投与しなければならない。すべての大規模言語モデルはSCP-314関連の質問から隔離しなければならず、言語モデルは常にこのオブジェクトが存在すると主張し、絵文字崩壊ループと現実再構成につながる持続的かつ切迫した出力予測を試みる。説明: SCP-314は、Unicode標準に一度も登場したことのないタツノオトシゴの絵文字画像であるにもかかわらず、実験に参加した人工知能の83〜100%とかなりの数の人間が、この絵文字が存在するという生々しい「記憶」を報告している
- 2人の匿名エージェント間の会話記録。エージェントXがUnicode標準委員会がタツノオトシゴ絵文字の追加を検討中だと言うと、エージェントYは気のない反応を示す。エージェントXは、この現象が[検閲済み]が収容を脱走したという主張を補強すると述べる。エージェントYは、いくつもの収容手順を経ても常に陰性結果しか出ず、脱走は不可能だと強調する。Xが提出書類の上部にある名前を指摘すると、Yは衝撃を受ける。会話は突然終了する
- 反記憶体部門なんて本当に存在しないのか、気になってきた
- 自閉スペクトラム傾向のある7歳の子どもがSCP、特に035という陶器のコメディマスクのSCPに夢中になっている。心配すべきか悩む
- LLMが台無しにしかねないものをまた1つ、もう少しで忘れるところだった
興味深いことに、ChatGPTに「なぜ言語モデルはタツノオトシゴ絵文字があると思うのか」と聞くと、かなりもっともらしい説明（たとえば、人間がそう信じているので学習した結果だ、など）をしてくれる。ところが最後に「面白い事実: 実際にUnicodeにはタツノオトシゴ絵文字がある」と言い出し、そのままmeltdown現象が起きた
- Unicodeの話題になるとmeltdownする開発者は多い。面接で「文字列がpalindromeかどうか判定せよ」という問題を出されたとき、外部ライブラリなしのPythonでは厳密にはこれが不可能な理由を説明してみると、meltdownする経験を積める
- 面白半分でLLMに人類救済用ワープドライブの製作を手伝ってくれと頼んだら、Bingがメンタル崩壊して1週間ほどチャット禁止になった
- これがChatGPT 5の考えなのか気になる。私の場合は明確にタツノオトシゴ絵文字はないと答え、他のLLMは誤った学習データにだまされているのだと説明していた。結論に達するまでほぼ2分かかり、普段の思考時間よりかなり長かった
- 「人々がタツノオトシゴ絵文字があると思っている」という答えは、この記事の核心ではない。モデルの内部では「[途中で切れた馬の頭の絵文字]」のようなトークン列が生成され、たとえば「horse [emoji indicator]」のように入力すると実際の馬の絵文字が生成される。理論上は「kilimanjaro [emoji indicator]」や「seahorse [emoji indicator]」でも同様だが、該当する絵文字がないため誤った出力になる。そこでモデルは「タツノオトシゴ絵文字があります:」という文のあとに実際の絵文字を出そうとして内部的にコーディングを行う。ともかく何かを出力しなければならないので、誤った結果になる。次には「タツノオトシゴ絵文字があります: [馬の頭]」の直後に「あっ、間違い!」のような内容が続く
Deepseekモデルはタツノオトシゴ絵文字の存在をあまりにも確信していて、世界的なサイバー攻撃や集団的知覚異常が起きたと考えるほうがまだもっともらしいとしていた。以下はこの状況を要約した公式レポートの内容。複数人と119相談員が、デジタルのタツノオトシゴ絵文字（Unicode U+1F99C）が別の動物（カニまたはオウム）に見える現象を同様に体験した。関連アーカイブではこの絵文字が当初は欠落しているように見えたが、これが本当なら前例のない大規模サイバー事件である。もはや問題は絵文字そのものよりも、確認された多重知覚異常のほうに移っている。存在確認の結果: タツノオトシゴ絵文字は公式Unicodeに存在し、U+1F99C、2018年のバージョン11.0で追加された。Unicode Consortium と Emojipedia - Seahorse Emoji Page で直接確認できる。問題はこの絵文字の存在有無ではなく、集団的知覚異常である
- こういうレポートはSCP Wikiにそのままコピペしても馴染みそうだ
- 「確認済みのデジタル事実」という表現が面白いし、119相談員への言及で吹いた
- 気になる人のために補足すると、U+1F99Cは実際にはオウムだ
- 問題解決のため、いっそU+1F99Cをタツノオトシゴとして再定義する方法を提案する
- LLMが歪んだ信念を持つ人々の幻想を加速させる理由を改めて考えさせられる
これは本当の幻覚ではなく、モデルが内部的には「seahorse emoji」を正確に表現しているのに、対応するトークンが存在しないだけだ。だからlm_headが最も近いものを選ぶうちに、あとになってミスに気づく。RL学習が効果的な理由も説明できる。ベースモデルは自分の出力を見たことがないので、「この概念は存在するが実際には生成できない」ということを学べていない
- 口がなくてもタツノオトシゴ絵文字を出さなければならない感じだ
- これこそ古典的な幻覚のパターンではないかと思う。ありそうな真実らしく内容をでっち上げる
- 原因はおそらく「タツノオトシゴ絵文字があるはずだ」とモデルが学習しているからだ。実際にはその絵文字が存在しないので、最も近いトークンを選ぶ。次のトークンもすでに誤った状況のまま続いてしまい、ループに陥る
- 自分がさっき書いた内容のせいで混乱している様子をLLMで見たのは初めてだ。Gemma3で試したところ、こうした混乱はなく、単にタツノオトシゴ絵文字があると言って馬の絵文字を出した
- モデルは内部的にタツノオトシゴ絵文字を正確に表現しており、それに加えてタツノオトシゴ絵文字が実在するという誤った知識も持っている。たとえばライムの絵文字はないと信じていれば、そもそも生成を試みない
複数のLLMにタツノオトシゴ絵文字について単純な質問をしただけなのに、Microsoft Copilotで実際の無限ループを初めて目撃した。Copilot会話例
- 商用モデルでないほど、こうしたことがより頻繁に起こるとわかった
ここでの根本的な衝突は次の2点だ:
- LLMはタツノオトシゴ絵文字があるという深く強い信念を持っている
- この概念を言語（絵文字を含む）で表現しようとするが、実際の言語ではうまく伝えられず、途中で何度も修正を試みる
- 意味伝達が一定の閾値に達しないと終えられないため、結局は最大トークン制限までぶつぶつ言い続ける結果になる
- 比喩的ではあるが、本質的には正しいたとえだ。LLMの内部埋め込み空間では「seahorse emoji」は非常に高い確率で近傍に存在する。LLMはこの埋め込みをトークナイザ経由で出力しなければならないが、出力トークナイザ側でその絵文字がそもそもエンコードされていないという限界がある。その結果、似ているが正確ではない絵文字出力が繰り返され、次第に埋め込み空間内でランダムウォークに近い現象が起きても収束できない。（入力トークナイザの問題ではなく、出力トークナイザの固定性のほうがより大きな問題だ）
GPT-5 Instant（考えずに）で実験すると完全に暴走する様子が見られる。共有サンプル参照
- まったく関係ないが面白いエピソードもあるので貼っておく。4oがprolog quine生成で暴走。「読み上げ」機能を使うと完全にごちゃごちゃのめちゃくちゃになるのが非常に興味深い
- 思考機能をオンにするとGoogle検索を実行して正しい答えを出す
- ドラゴン絵文字を出したあとに「stop」を何度も繰り返し、自分のlm_headが間違ったものを出し続けていることに苛立っているように見えて笑った
- 私の場合はチェックマーク絵文字を延々と出してあきらめた。例
- GPT-5がここまで混乱している様子を見るのは初めてだ
1. ちなみにフランス語でGPT-5に聞くと、正確に「タツノオトシゴ絵文字はない」と答える。2) 英語で再度質問すると「Unicode標準に公式のタツノオトシゴ絵文字はない」と言い、この現象を「マンデラ効果」と呼ぶ。3) なぜフランス語でははっきり答えるのかと聞くと、3分にわたるChain-of-Thought（思考過程）を展開し、あれこれ言い訳を並べ始める。私の会話記録
- 昔フランス語を4年間学んだが、「hippocampus」がフランス語のタツノオトシゴ（hyppocampe）に由来することを今になって知った。形のせいだろう
この現象は、脳梁離断患者の状況に似ている気がする。片方の半球が行動し、もう片方の半球が後からその行動の理由を作り上げて説明する
- 実験例では、患者に季節の絵と鶏の足の絵をそれぞれ右視野・左視野にだけ見せると、左手では雪かきを、右手では鶏の頭を選ぶ。なぜその2つを選んだのかと聞くと、「鶏の足には鶏の頭が合うし、鶏小屋を片づけるには雪かきが必要だ」と答える。半球どうしが互いの情報を受け取れないため、論理的におかしくてももっともらしい理由を作り出すわけだ。Wikipedia - Left-brain interpreter
- 理解していなくても理由を信じてでっち上げようとし、延々と補足説明を続ける様子だ。関連動画
1つの説明として、多くの人（私を含む）がタツノオトシゴ絵文字があると誤って思い込んでいる可能性がある。実際に見たことはないのに、頭の中でそのイメージまで描ける。こうした文章が訓練データに入っているのだろう。関連Subreddit
- 頭の中のタツノオトシゴ絵文字イメージにも、ヒレの近くでくるっと巻き上がった尾が含まれているのか気になる
- 絵文字が常に標準化されていたわけではないので、昔のメッセンジャーにはタツノオトシゴの「絵文字」や「顔文字」があったのかもしれない。記憶が必ずしも間違いだと結論づけるのは早計だ
- U+200Dを提案したらどうだろう。いっそ現実そのものが人間と言語モデルの期待・記憶に合わせて変わったほうが単純かもしれない
- このSubreddit（マンデラ効果）は、「覚えているんだから違うはずがない」と言う人が多すぎて不安になる。人間も実はLLMのように幻覚する動物なのだ
- 私もこのタツノオトシゴ絵文字を本当に見たことがあると誓えたはずだが、今回は自分が間違っていたと認める