Tokenizer Visualization

Word start

Continuation

Punctuation

Space/Special

[...]

Characters

Tokens

Chars/Token

Fun fact: GPT-2/3/4 use ~50,000 tokens. On average, 1 token ≈ 4 characters or ¾ of a word in English.

🔤 Tokenizer Visualization