LLMの可視化

(bbycroft.net)

43 ポイント投稿者 GN⁺ 2025-09-05 | 1件のコメント | WhatsAppで共有

GPTベースの大規模言語モデル nano-gpt の動作過程を簡潔に紹介
このモデルは 6文字 のシーケンスを受け取り、アルファベット順 に並べ替えることを目標とする
各文字は トークン と見なされ、すべてのトークンは固有の トークンインデックス を持つ
各トークンインデックスは 48次元の 埋め込みベクトル に変換され、一連の トランスフォーマーレイヤー を通過する
モデルは 次に来るトークン を予測し、その結果を繰り返し入力シーケンスに反映して発展させられる

GPT言語モデルの紹介

本文書は GPT大規模言語モデル の動作過程を視覚的に説明する資料
ここでは nano-gpt という非常に小型のモデル（パラメータ数は約85,000）を使用
モデルの目標は、6文字からなるシーケンスを受け取り、それをアルファベット順に整列させること（例: "ABBBCC"）

トークンと語彙

各文字は トークン(token) として定義され、モデルが認識するすべてのトークンの集合を 語彙(vocabulary) と呼ぶ
テーブル内で各トークンには 固有の番号(token index) が割り当てられる
このトークンインデックスの数列をモデルの入力として使用する

入力変換と埋め込み

3D可視化で 緑色のセル は処理中の数値を、青色のセル はモデルの 重み(weight) を表す
各入力数値は48次元の 埋め込みベクトル に変換される
この埋め込みは、モデル構造内の複数の トランスフォーマーレイヤー を連続して通過する

出力と予測の過程

モデルの出力は、そのシーケンスで予測される 次のトークン の確率として表される
6番目の入力位置では、次のトークンが 'A'、'B'、'C' である確率分布を予測する
例では、モデルは 'A' である確率が最も高い と予測する
この予測結果を再び入力に入れて過程を繰り返しながら、全体のシーケンスを生成する

1件のコメント

GN⁺ 2025-09-05

Hacker News の意見

本当に複雑でありながら驚かされる。過程を可視化する方法が本当に素晴らしい
関連資料があるので、ほかにも気になるものがあれば参考にできる
LLM Visualization - 2023年12月、コメント131件
ジョージア工科大学の研究者たちが作った別の transformer 可視化資料もある
https://poloclub.github.io/transformer-explainer/
そして The Illustrated Transformer という有名な可視化資料もおすすめ
https://jalammar.github.io/illustrated-transformer/
Sebastian Raschka, PhD がアーキテクチャについて書いた投稿もある
https://magazine.sebastianraschka.com/p/from-gpt-2-to-gpt-oss-analyzing-the
Hacker News のこのコメントではさまざまなリソースをまとめて見られる
https://news.ycombinator.com/item?id=35712334
可視化が本当に興味深い。全体の過程を視覚的に見られる一方で、モデルの内部意思決定の基準を完全には理解できていないという点が皮肉でもある。1年ほど前に調べたときは、まだこの部分に進展はなかった
この可視化コンテンツは本当に素晴らしくて、5歳の息子が通っているコンピュータークラブで子どもたちに見せようと計画している
- そのやり方なら子どもたちを昼寝させるのに最高かも
本当にすごくて感嘆すべき芸術作品のようだ。作ってくれてありがとう
昔からこの可視化資料が本当に好きだった
https://alphacode.deepmind.com/
（モバイルなら再生を押して最後までズームアウトしてから下にスクロールすればよい）
LLM の可視化がこういう形で教育ツールになれば本当に素晴らしいと思う。たとえば生成過程で attention がどう動くのか、あるいはプロンプトが出力にどう影響するのかを見せられそうだ。こうしたインタラクティブな可視化は、裏側で実際に何が起きているのかを理解するのに本当に役立つと思う
本当に素晴らしいと思う。時間ができたら深く掘り下げてみたい。観測ツールと組み合わせれば、この資料は科学者たちが「ブラックボックス」として知られるモデル内部を掘り下げる助けになると思う
ようやく理解できた。これは本当に素晴らしいリソースだ。時間と努力に感謝する

LLMの可視化

GPT言語モデルの紹介

トークンと語彙

入力変換と埋め込み

出力と予測の過程

関連記事

1件のコメント

Hacker News の意見