TokenDagger – OpenAIのTiktokenより高速なトークナイザー
(github.com/M4THYOU)- OpenAIのTikTokenと100%互換の高性能トークナイザーで、大規模テキスト処理において2倍以上のスループットと4倍高速なコードトークナイズ速度を提供
- PCRE2ベースの高速正規表現パースエンジンにより、トークンパターンマッチング速度を最大化
- 簡素化されたBPEアルゴリズムで、大量の特殊トークン処理時の性能低下を最小化
- 実際のベンチマークではコードトークナイズが4倍以上高速で、既存のTikToken利用コードをそのまま置き換えて活用可能
- Python 3.8+をサポートし、PyPI
pip install tokendaggerで簡単にインストール可能。PCRE2依存あり
1件のコメント
Hacker Newsのコメント