- OpenAI が最近公開した オープンウェイトモデル によって、訓練データの秘密の一端にアクセスできるようになった
- GPT-5の分析 過程で、成人向けサイトの文言が訓練データに含まれている証拠が見つかった
- 特定の 異常トークン(glitch token) を分析することで、GPT系モデルの訓練データの性質を推測できる
- Github などから収集された スパム/不適切コンテンツ も一部トークンに反映されている
- オープンウェイトの公開が 訓練データ推論と攻撃ベクトル 拡大の原因になりうる
概要
- OpenAI が最近 GPT-oss のウェイトを公開したことで、訓練データが正確に何であるかを部分的に推定できる状況が生じた
- 公式には「STEM、コーディング、一般知識に重点を置いた数兆トークンのテキストデータセット」と記されているだけで、実際のデータ出所の詳細は公開されていない
- しかし、公開されたモデルパラメータの構造的分析を通じて暗黙的な情報を得られる
実験と異常トークンの確認
- GPT-5(GPT-5-2025-08-07)モデルにアブハズ語(Abkhaz)の単語のような 特異なUnicode入力 を繰り返すよう求めると、見当違いに Malayalam(マラヤーラム語)の単語を返した
- この入力は任意のものではなく、モデルの脆弱性を誘発する グリッチトークン であることが実験で明らかになった
- GPT-5 および最近の OpenAI モデルは o200kトークナイザー を使用しており、各トークン埋め込みの L2 Norm 分布を分析すると
- L2 Norm が非常に低い約936個のトークンは、訓練中にほとんど登場しなかったトークンや特殊トークン、あるいは一部の Unicode バイトである
- 一方、L2 Norm が高いトークンは主に英語コードや説明、推論で頻繁に使われる語である
高ノルム非ASCIIトークンの正体
- 高い L2 Norm を持つ 非ASCIIトークン の多くは、中国語、アブハズ語、アルメニア語、タイ語、インド地域の言語で構成されている
- 特に中国語トークンのうち複数が 成人向けサイト や ギャンブル系サイト、政治的サイト名(例: .tieba、凤凰大参考 など)に該当する
- GPT系モデルのトークナイザーにこうした語が過大代表(overrepresented)されている点が指摘されている
- 一部トークンは特定地域の都市名やサッカー関連の文句などで、インターネット上のスパムや自動化されたデータ収集によって流入した可能性がある
グリッチトークンの活用
- GPT-5 および GPT-oss 系モデルにグリッチトークンを入力し、モデルがそのトークンの意味や言語を認識しているかを評価
- 実際の入力実験では、一部のセンシティブなトークンに対して モデルが意味を把握 したり応答を生成したりする現象が見つかった
- これは membership inference の一種であり、そのトークンが 訓練データに含まれていた ことを裏づける
- この方法によって、どのようなデータがモデル訓練に使われたのかをおおまかに推論できる
訓練データ出所の分析と示唆
- グリッチトークンは Github でよく検索される場合が多く、一部の訓練データが Github から収集された可能性 も指摘されている
- トークンごとの Github 検索結果とモデル認識率の間に 相関関係 が存在する(スピアマン ρ=0.448)
- ただし、オープンウェイトモデルの配布は 異常な訓練データ推論 だけでなく、セキュリティ上の攻撃ベクトル拡大にも寄与する
- Frontier AI 研究所は 異常・希少文字列のトークナイザー登録を防ぐ など、セキュリティ面での追加措置が必要である
付録: グリッチトークン研究の拡張
- グリッチトークンは モデル識別(特定の API/サービスがどのモデルを使っているかの推論)など、さまざまな用途に活用できる
- 学習回数、サンプル効率性、埋め込みや前段レイヤーを通じた追加の分布分析など、より深い研究テーマへ拡張されつつある
- GPT-4o 系ではグリッチトークンが 無限反復出力 を引き起こし、サービス拒否(DoS)攻撃に悪用される危険性も言及されている
- 詳細な事例と表は付随する Github リポジトリを参照
参考と結論
- 代表的な実証研究として MIT Technology Review や中国の技術ブログなどが参照されている
- 最終的に、オープンウェイトモデル の配布は、モデルに内在する訓練データの詳細を推測する新たな方法を提供し、データセキュリティとプライバシーの観点で大きな示唆 を与える
- モデル開発者は、センシティブ/異常データがトークナイザーや学習データに含まれないよう 積極的な遮断戦略 を講じる必要がある
2件のコメント
科学という観点から、AIに世界についての一般知識を教える意図なのであれば、アダルトサイトをあえて除外する必要はないように思います。
一方で、プロダクトを作るという観点、つまり顧客に信頼できるチャットボットを提供するという観点では、低質なコミュニティやアダルトサイトを除外するのは妥当でしょう。
OpenAIのPMがどのような判断を下したのか、その内情が気になります。
Hacker Newsの意見