Andrej Karpathy による GPT トークナイザー構築 [動画]

(youtube.com)

23 ポイント投稿者 GN⁺ 2024-02-21 | 2件のコメント | WhatsAppで共有

Tokenizer は大規模言語モデル（LLM）に不可欠で頻繁に使われる構成要素であり、文字列とトークン（テキストのかたまり）の間を変換する
Tokenizer は LLM パイプラインの完全に独立した段階である:
- 独自の訓練セットと訓練アルゴリズム（Byte Pair Encoding）を持つ
- 訓練後には 2 つの基本機能を実装する:
  - 文字列をトークンに変換する encode()
  - そしてトークンを再び文字列に変換する decode()
この講義では、OpenAI の GPT シリーズで使われた Tokenizer をゼロから構築してみる
この過程で、LLM の多くの奇妙な挙動や問題が実際にはトークン化によって生じていることが分かるだろう
こうした問題を見ていきながら、なぜトークン化が問題の原因なのか、そしてなぜ誰かがこの段階を完全に削除する方法を見つけるべきなのかを議論する

2件のコメント

GN⁺ 2024-02-21

Andrej KarpathyによるGPT nano構築に関する動画は、現代の大規模言語モデル（Large Language Models, LLM）を開発するために必要なすべての段階を見事に説明するチュートリアルである。
- このシリーズ『zero to hero』は、複雑な概念を恐ろしく見せたり過度に複雑にしたりする比喩を使わず、実際の実装と比喩的説明を通じて、アイデアを理解しその単純さを見て取れるようにしている。
- 最初は学習曲線が急だが、理解しその理由を論じる能力を実際に得られるため、満足感がある。
Andrej Karpathyは話す速度が速く、再生速度を確認する必要があった。1.25倍速で話しているように聞こえる。
有料で支払ったとしても、このような高品質のコンテンツを得るのは難しい。
「宇宙の卵であるとき、それは単一のトークンだ」という表現について、『Nostromo』号の乗組員たちが同意するかは定かではない。（この部分は映画『エイリアン』に登場する宇宙船『Nostromo』号に言及するジョークであり、コメントの文脈を完全に理解するにはその映画に関する背景知識が必要である）

以上の要約は、各コメントを中立的で名詞形で終わる文として要約し、背景知識を簡潔に補って、初級ソフトウェアエンジニアでも理解できるように作成されたものである。

wooseop 2024-02-21

プロンプトが「各コメントを中立的で名詞形で終わる文に要約し、背景知識を簡潔に追加して、初級ソフトウェアエンジニアでも理解できるように書いてください」だったようですね