15 ポイント 投稿者 xguru 2023-06-12 | まだコメントはありません。 | WhatsAppで共有
  • GPT/LLaMA/PaLM のような LLM モデルはトークンベースで動作する
  • テキストを受け取ってトークン(整数)に変換し、次にどのトークンが出てくるかを予測する
  • OpenAI が Tokenizer を公開しているが、筆者は Observable notebook で独自バージョンを公開している(GPT-2 ベースの教育用)
    • テキスト-to-トークン、トークン-to-テキスト、およびトークンテーブル全体の検索をサポート
  • The dog eats the apples
    El perro come las manzanas
    片仮名

  • 上の文をトークンに変換した結果を使って説明
    • The と the は異なるトークン
    • 多くの単語には先頭に空白を含むトークンがある(文全体のエンコードではるかに効率的)
    • 英語以外の単語では非効率なトークン化が行われる

まだコメントはありません。

まだコメントはありません。