2 ポイント 投稿者 GN⁺ 2024-02-05 | 1件のコメント | WhatsAppで共有

紹介

  • この記事は、小規模言語モデルが次のトークンを予測する方法についての探究を扱う。
  • トランスフォーマーモデルの自己注意(self-attention)メカニズムに焦点を当てるのではなく、注意計算の結果がどのように正確な次トークン予測へと変換されるのかについて説明する。
  • 著者は動作する小規模トランスフォーマーを通じて内部状態を検証し、6か月にわたる深い探究を通じて価値ある結果を共有する。

トランスフォーマーブロックの構造

  • トランスフォーマーブロックは、マルチヘッド自己注意層とフィードフォワードネットワークで構成される。
  • フィードフォワードネットワークの出力が、ブロックが入力を出力へ変換する方法を決定する主要な要素である。

提案: トランスフォーマーの動作原理

  • 各トランスフォーマーブロックは、与えられたプロンプトを学習データ内の文字列クラスと関連付ける重みを学習する。
  • この文字列クラスの後に続くトークンの分布が、ブロックが次のトークンに対する予測として出力する内容とおおむね一致する。

実装: フィードフォワードネットワーク出力を用いたトランスフォーマー出力の近似

  • 著者は、トランスフォーマーの出力を近似するためにフィードフォワードネットワーク出力を使う具体的な手順を提示する。
  • この手順は、モデルにプロンプトを通し、各ブロックに対するフィードフォワードネットワーク出力を保存することから始まる。
  • 学習データ内で類似したフィードフォワードネットワーク出力を生成する文字列を見つけ、その文字列の後に続くトークンの頻度分布を構築する。
  • これらの分布を重み付けして合算し、正規化することで最終的な確率分布を得る。

GN⁺の見解

  • この研究は、トランスフォーマーモデルの内部動作原理に対する深い理解を提供する。特に自己注意の後段の過程に関する洞察は、トランスフォーマーモデルの予測メカニズムを理解するうえで重要である。
  • 著者のアプローチは、トランスフォーマーがどのように学習データのパターンを認識し、それに基づいて次のトークンを予測するのかについて明確な説明を与える。
  • この記事は、トランスフォーマーモデルを研究または開発する人々にとって有用な資料となり得て、人工知能の言語処理分野への理解を深めることに貢献するだろう。

1件のコメント

 
GN⁺ 2024-02-05
Hacker Newsの意見
  • 新しい現象に驚くべきではない。すでに確立された理論を読まなければ、自然に発生する現象に戸惑うことはあり得る。

    • 実験は徹底しているように見え、細部への注意が印象的。
    • 既存理論を学ぶことと、理論を一から再発見することのバランスが重要。
    • モデルが訓練データに基づいて対数尤度を最大化するのは当然の結果。
    • 基礎を理解することが重要で、シャノンのエントロピー理論などが良い出発点になりうる。
  • Googleが、ChatGPTに同じ単語を繰り返させると訓練データをそのまま吐き出すと指摘した後、それを実際に実装した人がいることへの肯定的な反応。

    • これにより追加の質問が生じる:
      1. 「AIのないAI」アプローチは既存のモデル圧縮方式よりエネルギー効率が高いのか?
      2. この結果はOpenAIとStability AIに対する訴訟で証拠として使えるのか?
  • AttentionとFF(Feed Forward)ネットワークが同じ方向を指している現象に驚きを示す。

    • FFネットワークは任意の回転が可能であるにもかかわらず、複数の層で同じ潜在空間にあるとは予想していなかった。
  • Andrej KarpathyのNanoGPTチュートリアルに従って小さなモデルを訓練したところ、複雑なロシア語文法をある程度理解しているように見えた。

    • モデルは完璧ではないが、3分の訓練だけで複雑な規則を推論できていた。
  • LLMはマルコフ連鎖のテキスト生成器なのかという質問。

    • もしそうなら、元の訓練データを使って同程度の性能を持つマルコフ連鎖を構築できるのかという疑問を提起。
  • 研究されたモデルは実際には単純なおもちゃモデルであり、さらに単純なモデルでも近似できる。

    • しかし、このモデルがより大きなLLMの動作を代表しているとは限らない。
  • 著者の主張を正確に理解するのが難しい。

    • 「近似が機能する理由」のセクションを何度も読んだが、単にトランスフォーマーの段階的な説明のように感じられる。
  • LLMシステムの3D可視化は有益で、最大限の効果のためにあわせて読むべき。

  • トランスフォーマーが実際に何をしているのかに関する奇妙な投稿。

    • コードを追えば、トランスフォーマーが何をしているのか正確に分かる。