GPT Tokenizerを理解する
(simonwillison.net)- GPT/LLaMA/PaLM のような LLM モデルはトークンベースで動作する
- テキストを受け取ってトークン(整数)に変換し、次にどのトークンが出てくるかを予測する
- OpenAI が Tokenizer を公開しているが、筆者は Observable notebook で独自バージョンを公開している(GPT-2 ベースの教育用)
- テキスト-to-トークン、トークン-to-テキスト、およびトークンテーブル全体の検索をサポート
-
The dog eats the apples
El perro come las manzanas
片仮名 - 上の文をトークンに変換した結果を使って説明
- The と the は異なるトークン
- 多くの単語には先頭に空白を含むトークンがある(文全体のエンコードではるかに効率的)
- 英語以外の単語では非効率なトークン化が行われる
まだコメントはありません。