OpenAIのGPT-OSSが明かすOpenAI訓練データの秘密

(fi-le.net)

4 ポイント投稿者 GN⁺ 2025-10-06 | 2件のコメント | WhatsAppで共有

OpenAI が最近公開した オープンウェイトモデル によって、訓練データの秘密の一端にアクセスできるようになった
GPT-5の分析 過程で、成人向けサイトの文言が訓練データに含まれている証拠が見つかった
特定の 異常トークン（glitch token） を分析することで、GPT系モデルの訓練データの性質を推測できる
Github などから収集された スパム／不適切コンテンツ も一部トークンに反映されている
オープンウェイトの公開が 訓練データ推論と攻撃ベクトル 拡大の原因になりうる

概要

OpenAI が最近 GPT-oss のウェイトを公開したことで、訓練データが正確に何であるかを部分的に推定できる状況が生じた
公式には「STEM、コーディング、一般知識に重点を置いた数兆トークンのテキストデータセット」と記されているだけで、実際のデータ出所の詳細は公開されていない
しかし、公開されたモデルパラメータの構造的分析を通じて暗黙的な情報を得られる

実験と異常トークンの確認

GPT-5（GPT-5-2025-08-07）モデルにアブハズ語（Abkhaz）の単語のような 特異なUnicode入力 を繰り返すよう求めると、見当違いに Malayalam（マラヤーラム語）の単語を返した
この入力は任意のものではなく、モデルの脆弱性を誘発する グリッチトークン であることが実験で明らかになった
GPT-5 および最近の OpenAI モデルは o200kトークナイザー を使用しており、各トークン埋め込みの L2 Norm 分布を分析すると
- L2 Norm が非常に低い約936個のトークンは、訓練中にほとんど登場しなかったトークンや特殊トークン、あるいは一部の Unicode バイトである
- 一方、L2 Norm が高いトークンは主に英語コードや説明、推論で頻繁に使われる語である

高ノルム非ASCIIトークンの正体

高い L2 Norm を持つ 非ASCIIトークン の多くは、中国語、アブハズ語、アルメニア語、タイ語、インド地域の言語で構成されている
特に中国語トークンのうち複数が 成人向けサイト や ギャンブル系サイト、政治的サイト名（例: .tieba、凤凰大参考など）に該当する
GPT系モデルのトークナイザーにこうした語が過大代表（overrepresented）されている点が指摘されている
一部トークンは特定地域の都市名やサッカー関連の文句などで、インターネット上のスパムや自動化されたデータ収集によって流入した可能性がある

グリッチトークンの活用

GPT-5 および GPT-oss 系モデルにグリッチトークンを入力し、モデルがそのトークンの意味や言語を認識しているかを評価
実際の入力実験では、一部のセンシティブなトークンに対して モデルが意味を把握 したり応答を生成したりする現象が見つかった
これは membership inference の一種であり、そのトークンが 訓練データに含まれていた ことを裏づける
この方法によって、どのようなデータがモデル訓練に使われたのかをおおまかに推論できる

訓練データ出所の分析と示唆

グリッチトークンは Github でよく検索される場合が多く、一部の訓練データが Github から収集された可能性 も指摘されている
- トークンごとの Github 検索結果とモデル認識率の間に 相関関係 が存在する（スピアマン ρ=0.448）
ただし、オープンウェイトモデルの配布は 異常な訓練データ推論 だけでなく、セキュリティ上の攻撃ベクトル拡大にも寄与する
Frontier AI 研究所は 異常・希少文字列のトークナイザー登録を防ぐ など、セキュリティ面での追加措置が必要である

付録: グリッチトークン研究の拡張

グリッチトークンは モデル識別（特定の API／サービスがどのモデルを使っているかの推論）など、さまざまな用途に活用できる
学習回数、サンプル効率性、埋め込みや前段レイヤーを通じた追加の分布分析など、より深い研究テーマへ拡張されつつある
GPT-4o 系ではグリッチトークンが 無限反復出力 を引き起こし、サービス拒否（DoS）攻撃に悪用される危険性も言及されている
詳細な事例と表は付随する Github リポジトリを参照

参考と結論

代表的な実証研究として MIT Technology Review や中国の技術ブログなどが参照されている
最終的に、オープンウェイトモデル の配布は、モデルに内在する訓練データの詳細を推測する新たな方法を提供し、データセキュリティとプライバシーの観点で大きな示唆 を与える
モデル開発者は、センシティブ／異常データがトークナイザーや学習データに含まれないよう 積極的な遮断戦略 を講じる必要がある

2件のコメント

aer0700 2025-10-07

科学という観点から、AIに世界についての一般知識を教える意図なのであれば、アダルトサイトをあえて除外する必要はないように思います。
一方で、プロダクトを作るという観点、つまり顧客に信頼できるチャットボットを提供するという観点では、低質なコミュニティやアダルトサイトを除外するのは妥当でしょう。
OpenAIのPMがどのような判断を下したのか、その内情が気になります。

GN⁺ 2025-10-06

Hacker Newsの意見

この記事では「GPT-5が成人向けWebサイトから持ってきた文句で学習された」と言っているが、実際にはGPT-5が成人向けサイトにも登場する文句で学習されたという話であり、しかもそのような文句を含むデータの出所がGitHubかもしれないという推測があるだけだ
- 中国の成人向けサイトの広告は、再パッケージ化された無料コンテンツや海賊版コンテンツに広く含まれており、これらの資料は github、shadow libraries、YouTube のような場所を通じて配布される。同じ理由で、whisper モデルに無音の音声を入れるとこうした広告文句が出力される現象もある
- ブログの最後でこの部分が扱われている
「GPT-5が成人向けサイトの文句で学習された」という表現が、本当に成人向けサイトから取得したという意味なのか、それともそうした文句が学習データ内によく現れたという意味なのか気になる。ブログスパム、リンクファーム、アフィリエイトマーケティングなどは成人向け/ギャンブルサイトでよく見られるので、関連文句が多く混ざるのは自然だ
- この人、成人向けサイトをかなりよく知っているようなニュアンスだ
「約936個の非常に小さい L2 norm 値を持つトークンがあり、これはこれらのトークンが GPT-oss の学習で使われず、weight decay によって抑制されたことを意味する」という主張について、慣例的には embedding と norm パラメータは weight decay から除外されるが、今もそうなのか気になる。minGPT のサンプルコードを見ると実際にそうだと説明されている minGPTコードを見る
- もしかすると、こうしたトークンはデータセットの平均値+ノイズで初期化され、学習過程で露出せず値が変わらなかっただけなのではないかという推測だ。最新の手法かは分からないが、Karpathy の動画では初期の gradient descent で損失が急激に下がるのを防ぐためにこうしたトリックを使うことがある
- 記事はこうしたパターンを学習データからどう見つけるのか、その過程の説明が不足していると感じた。ただ結果だけを扱っていて、内容として物足りなかった
記事で興味深い点の一つは、「glitch token」を使ってどの言語モデルを使っているか見分けられるということだ。glitch token をプロンプトに入れて反応を見ると、モデルの正体が明らかになる
- 今後はペンテストでも LLM のフィンガープリントを識別して、モデルの種類やセキュリティ脆弱性などを把握するフローが出てくるかもしれないと想像した
- 私も似たことを考えた。今後さまざまな agentic flow で使われているモデルが何かを明らかにするきっかけになるのか気になる。あるモデルが別の下位モデル群を呼び出す場合、各段階での glitch 反応を通じて呼び出し全体の構造を逆追跡できるかもしれない
- ただ、こうしたリバースエンジニアリングが可能なのは tokenizer を直接見られるからではないかとも思う。Claude や Gemini 向けの tokenizer は公開されているのだろうか。もしそうでないなら、こうした攻撃手法も防げるかもしれない
LLM、特にAPIだけ提供されるクローズドモデルをリバースエンジニアリングしたり、学習データ構成を調べたりする研究があるのか気になる。たとえば Claude Sonnet 4.5 の学習データをどう推定できるのか、また RLHF 後でも事前学習済みモデルの性質まで明らかにする研究があるのか知りたい。GPT-4o のようなモデルでバイアスが完全に消えるのか、それともモデルの奥深くにただ隠れているだけなのか、その違いも知りたい
- 関連論文がある arXiv:2403.06634、arXiv:2311.17035。Nicholas Carlini のインタビューもあったので覚えている
- バイアスは人間的な言葉なので、こういう形で議論すると終わりがなくなる気がする。昔 systemd がリリースされた時に LLM がすでに存在していたなら、その時は情報量が少なく、古い情報をもとに答えたはずだ。LLM は受け取ったデータを再生産しているだけで、データから情報を削除するほうが学習データを精製するより安く済む傾向がある
「xadder」というトークンが奇妙に見えたが、実際には「xpadder」（ゲームパッドツール）のタイプミス、複数ツールの名前、XLib 呼び出しパラメータ、Xilinx Vivado の full adder 実装など、さまざまな文脈で使われる単語だ。フォーラムのニックネームとして使われる例も多い
記事で紹介された中国語フレーズの翻訳があまりにも不正確で、意味の把握が難しく、結果としてデータ行列自体も不正確なのではないかと思える。著者は経験豊富な中国語ネイティブによるクロスチェックが必要だ
- 誰かがより良い翻訳を投稿したら更新するというフィードバックだ
こうした「低品質」な ad token などにトークン空間を浪費するほど範囲が広いなら、量子化モデルの性能を上げるためにトークン空間を減らそうとする試みがあったのか気になる。ad token を見てふと思ったことだ
- 一部の 30b パラメータモデルが、実際には一度に 3b 程度しか活性化しない構造というのは、まさにそういうアイデアなのではと思う
もしかすると私の誤解かもしれないが、記事では OpenAI が成人向けサイトのデータを学習に使ったことが、何かスキャンダルのように示唆されているように見える。だが実際には Google も成人向けサイトをインデックスし検索に反映しているのに、LLM では何が違うのかよく分からない
- 実際、新しい話でもない。gpt-tokens リポジトリを見ると、すでに1年ほど前から Gpt-4o で成人向けサイト関連の中国語フレーズが見つかった例がある。この問題は以前から知られていた
- 問題の核心は、もし GitHub に上がっている特定のフレーズがモデル内に現れるなら、GitHub が学習データに含まれていた可能性が高いという点だ
- 個人的には、記事からそうしたニュアンスは感じなかった
- 企業の立場では、こうしたデータ、特に成人向けコンテンツ関連のフレーズは、検閲やポリシー順守のために学習データから事前に除去するのが適切だと思う
Gemini 2.5 pro で記事の事例をテストしてみたが、ほとんどは問題なくうまく処理した。Google のモデルはまったく別の glitch token にだけ脆弱なのかもしれないと思う。記事で扱われている技術的な議論は少し難しく感じる
- glitch token は tokenizer ごとに異なる動作をする。Gemini は OpenAI モデルとは異なる tokenizer を使っている。OpenAI の glitch token の起源も興味深く、初期の tokenizer を学習するとき、使用データ内の人気文字列（たとえば Reddit の活発なユーザーのニックネームなど）が整数に割り当てられ、その中からランダムに選ばれた例が「davidjl」だ。さらに詳しい説明