Andrej Karpathy による GPT トークナイザー構築 [動画]
(youtube.com)- Tokenizer は大規模言語モデル(LLM)に不可欠で頻繁に使われる構成要素であり、文字列とトークン(テキストのかたまり)の間を変換する
- Tokenizer は LLM パイプラインの完全に独立した段階である:
- 独自の訓練セットと訓練アルゴリズム(Byte Pair Encoding)を持つ
- 訓練後には 2 つの基本機能を実装する:
- 文字列をトークンに変換する
encode() - そしてトークンを再び文字列に変換する
decode()
- 文字列をトークンに変換する
- この講義では、OpenAI の GPT シリーズで使われた Tokenizer をゼロから構築してみる
- この過程で、LLM の多くの奇妙な挙動や問題が実際にはトークン化によって生じていることが分かるだろう
- こうした問題を見ていきながら、なぜトークン化が問題の原因なのか、そしてなぜ誰かがこの段階を完全に削除する方法を見つけるべきなのかを議論する
2件のコメント
Hacker Newsの意見
Andrej KarpathyによるGPT nano構築に関する動画は、現代の大規模言語モデル(Large Language Models, LLM)を開発するために必要なすべての段階を見事に説明するチュートリアルである。
Andrej Karpathyは話す速度が速く、再生速度を確認する必要があった。1.25倍速で話しているように聞こえる。
有料で支払ったとしても、このような高品質のコンテンツを得るのは難しい。
「宇宙の卵であるとき、それは単一のトークンだ」という表現について、『Nostromo』号の乗組員たちが同意するかは定かではない。(この部分は映画『エイリアン』に登場する宇宙船『Nostromo』号に言及するジョークであり、コメントの文脈を完全に理解するにはその映画に関する背景知識が必要である)
以上の要約は、各コメントを中立的で名詞形で終わる文として要約し、背景知識を簡潔に補って、初級ソフトウェアエンジニアでも理解できるように作成されたものである。
プロンプトが「各コメントを中立的で名詞形で終わる文に要約し、背景知識を簡潔に追加して、初級ソフトウェアエンジニアでも理解できるように書いてください」だったようですね