イラストで理解するトランスフォーマー

(jalammar.github.io)

23 ポイント投稿者 GN⁺ 2025-12-23 | 1件のコメント | WhatsAppで共有

トランスフォーマーモデルの構造と動作原理を視覚的に説明し、アテンション機構がどのように並列学習と翻訳性能を向上させるかを示す
モデルはエンコーダーとデコーダーのスタックで構成され、各エンコーダーはセルフアテンションとフィードフォワードニューラルネットワークの2層から成る
セルフアテンションの計算過程をベクトルと行列のレベルで段階的に説明し、マルチヘッドアテンションによって多様な表現空間を学習するよう拡張する
位置エンコーディング、残差接続、レイヤー正規化、デコーダーのマスキングアテンションなどの主要な構成要素を具体的に可視化する
この記事はトランスフォーマーの基本概念をわかりやすく理解するのに役立つ代表的な資料で、MIT・Stanford など主要大学の講義や教材でも活用されている

トランスフォーマー概要

トランスフォーマーはアテンションベースのニューラル機械翻訳モデルで、従来の Google Neural Machine Translation より特定のタスクで高い性能を示す
- 主な利点は並列化が容易な点であり、Google Cloud TPU の参照モデルとして推奨されている
モデルはエンコーダーとデコーダーのスタックで構成され、各エンコーダーは同一の構造を持つが重みは共有しない
エンコーダー入力はセルフアテンション層を通じて文脈情報を統合し、その後フィードフォワードニューラルネットワークを通過する
デコーダーはエンコーダー構造に加えてエンコーダー-デコーダーアテンション層を含み、入力文の関連部分に注目する

テンソルの流れと埋め込み

入力文は単語埋め込みアルゴリズムによって各単語を 512 次元ベクトルに変換する
エンコーダーの各層は同じサイズのベクトル列を入力として処理し、文長はハイパーパラメータとして設定される
フィードフォワード層は各位置のベクトルを独立に処理するため、並列演算が可能

セルフアテンションの概念

セルフアテンションは、各単語が文中の他の単語を参照してより良い表現を学習できるようにする
- 例: “The animal didn’t cross the street because it was too tired” では、"it" は "animal" と関連している
RNN の隠れ状態の維持とは異なり、トランスフォーマーはセルフアテンションによって文脈情報を統合する

セルフアテンションの計算手順

各単語埋め込みからQuery、Key、Value ベクトルを生成する（次元は 64）
Query と Key の**内積（dot product）**によって各単語間の関連スコアを計算する
スコアを**√64 で割った後にソフトマックス**を適用し、確率分布として正規化する
各 Value ベクトルにソフトマックスのスコアを掛けて合計し、最終的なアテンション出力を生成する
実際の実装では、この過程を行列演算で行って効率を高める

マルチヘッドアテンション

**複数のアテンションヘッド（標準では 8 個）**を使って、さまざまな表現空間を学習する
- 各ヘッドは独立した Q/K/V 重み行列を持つ
複数ヘッドの出力を**連結（concat）**した後、追加の重み行列 WO で結合する
これにより、モデルは文脈の多様な側面を同時に捉えられる

位置エンコーディング

トランスフォーマーは順序を直接扱わないため、各単語埋め込みに位置ベクトルを加える
位置ベクトルは**サイン（sin）とコサイン（cos）**関数を用いて生成され、単語間の相対距離情報を提供する
この方式は訓練データより長い文にも拡張できる
2020 年の更新では、**2 つの信号を交互に配置する（interleave）**方式も紹介されている

残差接続と正規化

各サブ層（セルフアテンション、フィードフォワード）には**残差接続（residual connection）とレイヤー正規化（layer normalization）**が適用される
こうした構造は勾配消失の防止と学習安定性の向上に寄与する

デコーダー構造

デコーダーはエンコーダー出力からKey/Value ベクトルを受け取り、エンコーダー-デコーダーアテンションを行う
**マスキング（masking）**によって未来の単語を参照しないように制限する
最後にLinear 層とSoftmax 層を通じて単語の確率分布を生成する
- 例: 語彙サイズが 10,000 の場合、各出力ベクトルは 10,000 次元の確率分布に変換される

学習と損失関数

学習時には、モデル出力の確率分布を**正解分布（ワンホットエンコーディング）**と比較する
クロスエントロピー（cross-entropy）またはKL ダイバージェンスを用いて誤差を計算し、逆伝播で重みを調整する
**ビームサーチ（beam search）**によって複数の翻訳候補を保持し、精度を高める

後続研究と参考資料

関連論文: Attention Is All You Need, Training Tips for the Transformer Model, Self-Attention with Relative Position Representations など
実装資料: Tensor2Tensor パッケージ、Harvard NLP PyTorch ガイド、Colab Notebook
トランスフォーマーはその後 LLM-book.com の拡張版（Chapter 3）へと発展し、Multi-Query Attention や RoPE 位置埋め込み などの最新モデルも扱っている

結論

トランスフォーマーは並列化可能なアテンションベース構造であり、現代ディープラーニングの中核モデルとして定着している
本記事はトランスフォーマーの構造・数学・直感を視覚的に説明した代表的な資料で、Stanford・MIT・Harvard など主要大学の講義で参考資料として使われている

1件のコメント

GN⁺ 2025-12-23

Hacker Newsの意見

トランスフォーマーの基礎を学ぶときにこの記事を読んだ。可視化が本当に役に立った。
ただ、実際のLLMを適用する業務では、トランスフォーマー構造を知っていることはほとんど役に立たなかった。とはいえ、内部動作をぼんやり理解しているという心理的な安心感はあった。
LLMの振る舞いを構造で説明しようとする試みは落とし穴だ。最新モデルは強化学習などの影響で、予測不可能なemergent phenomenaを示すからだ。
以前はLLMが数学やコーディングをうまくできるはずがないと確信していたが、完全に間違っていた。結局、構造だけでモデルの能力を推論するには限界がある。
最近は休暇中にPyTorchでトランスフォーマーを直接実装しながら復習している。面白くて楽しい。
入門するなら Sebastian Raschka の LLMs from Scratch を勧める。
もし Jay Alammar の2024年刊行の本を読んだ人がいたら、最新の観点から見て薦められるか知りたい。
- 私も同意しつつ、一部は違う考えだ。AIエンジニアとして働きながら、“古典的な”ディープラーニングを直接使う場面はほとんどないが、LLMの内部を深く理解する能力こそが上位1%のエンジニアを分けると信じている。
  モデルの制約を直感的に把握できる感覚が身につくからだ。以前 Hugging Face の Clem Delangue から直接聞いた助言でもあり、その後LLMの構造を深く学んだが非常に役立った。
  コーディングブートキャンプ修了生にも同じ助言をしている — PythonとReactだけでも十分に働けるが、コンピュータアーキテクチャと低水準言語を理解していれば、長期的にははるかに強い開発者になれる。
- ほとんどのチュートリアルがattentionメカニズムを単語中心で説明しているのが問題だと思う。実際にはトランスフォーマー内部には単語に直接対応するトークンはない。
  トークンは単語の断片ではなく、言語処理や画像処理は入力段階でのみ意味を持つ。こうした誤解が、トランスフォーマーの潜在力を過小評価させる原因になっていると思う。
- 基本的な理解がなぜ重要かの例を挙げると、HNではLLMがコードにコメントを多く生成しすぎるという不満が多い。
  しかし、これはむしろコード品質を高める現象だ。causal transformer のpositional encodingによって、モデルは局所的な推論のための一時的なトークンを残し、簡単に忘れられる。
  つまり、一種の使い捨てスクラッチパッドのように機能している。解決策はLLMの出力を後処理することであって、モデルにコメント生成を抑制させることではない。
- Welch Labs のmechanistic interpretabilityに関する良い動画がある: YouTubeリンク
- LLMに対する人々の認識は3つの層に分かれると感じる。
  1. LLMは役に立たない単なる生成器だと信じる人
  2. すでにAGIに到達したと信じる人
  3. LLMが5年以内に世界を破壊すると信じる人
    ChatGPTの公開以降も、この3グループの比率はほとんど変わっておらず、証拠で説得されることもまれだ。
Transformer Explainerチームの可視化は本当に素晴らしかった。
Transformer Explainer と 3blue1brown の動画を一緒に見ると、理解がかなりはっきりする。
- これまで見た可視化の中でも最高レベルの資料の一つだった。
著者 Jay Alammar が自ら残したコメントで、ほかの良いトランスフォーマー学習資料を紹介している。
関連リンク
トランスフォーマー解説資料が多すぎて、モナドのチュートリアルみたいに感じる。
ある人は悟りを得たと思っているが、実際にはまだ混乱している状態のまま、それを広く共有しようとしている。
- それでも、このブログ記事は今なお最も明快なトランスフォーマー解説の一つだと思う。
- インターネット上に説明が一つしか存在してはいけない理由はない。自分に合う説明を見つければよい。
  数学や電子工学の概念を学ぶときも、最初の説明は難しいが、いくつものバージョンに触れることで最終的に理解が深まる。
もしかすると自分が時代遅れなのかもしれないが、トランスフォーマーが従来のU-netのようなディープラーニング構造を完全に置き換えたのか気になる。
- まったくそんなことはない。トランスフォーマーへの過剰な執着は、実際の性能データで裏づけられていない。
  たとえばCNNはいまも強力で、とくに医療画像のような特殊なビジョンタスクではより適している。
  回転不変モデル、グラフニューラルネットワーク、ポイントクラウドモデルなどでは、むしろトランスフォーマーが不向きなこともある。
  つまり、今でもさまざまな代替アーキテクチャが存在する。
  関連論文: CNNs can still do just as well
この本を持っているが、チームがLLMをシステムに導入することになったとき、本当に命綱のような資料だった。
- ただ、トランスフォーマー構造を理解していなければLLMを扱えないとは思わない。
  LLMは結局のところ人間的推論を模倣する合成システムなので、内部構造を知っていてもエラーパターンを予測するのは難しい。
  経験と実験で勘所をつかむことのほうが重要だ。
トランスフォーマーの内部はいずれコンパイラの内部のように重要度が下がると思う。
ほとんどの開発者は内部実装よりも「どう活用するか」にしか関心を持たなくなるだろう。
- 実際、多くの実務者はLLMを使っていても、基礎的な機械学習の概念すら知らない。bias と variance の違いを知っている人もまれだ。
- それでも、誰かは依然として内部を深く理解していなければならない。SOTAを更新し、維持保守するには内部構造を理解した専門家が必要だ。
  OS、コンパイラ、GPU/TPUのようなハードウェアと同様に、トランスフォーマーも継続的に改善されなければならないので、こうした知識を持つ人の役割はむしろさらに重要になる。
素晴らしい記事で、最近のIllustrated Evo 2プロジェクトにもインスピレーションを与えたようだ。
NVIDIA Research ブログリンク
人々はKey/Query/Valueを特別な概念だと思いがちだが、実際のところトランスフォーマーは行列積の拡張構造にすぎない。
一般的なニューラルネットワークの1層が matrix * input なら、トランスフォーマーは input * MatrixA、input * MatrixB、input * MatrixC を計算してそれらを組み合わせる。
結局すべては行列演算の繰り返しだ。詳しくは PyTorchブログを参照。
- 私はconvolutionをK/Q/Vメカニズムのメンタルモデルとして思い浮かべる。
  attention も位置に依存せず学習され、入力の大きな区間を新しい値へ変換し、複数ヘッドが並列に異なる側面を学習する。convolution のカーネルに似た概念だ。
このガイドは本当に大作だ。Claude Codeのようなツールと一緒に使ってPyTorchの疑似コードを生成してみると、概念を視覚的に理解するのにとても役立つ。
何時間も没頭して学ぶのに向いた資料だ。

イラストで理解するトランスフォーマー

トランスフォーマー概要

テンソルの流れと埋め込み

セルフアテンションの概念

セルフアテンションの計算手順

マルチヘッドアテンション

位置エンコーディング

残差接続と正規化

デコーダー構造

学習と損失関数

後続研究と参考資料

結論

関連記事

1件のコメント

Hacker Newsの意見