Intelligent Tokenizer: Attention Needs No Vocabulary (Demo + Paper)

ggunio · September 14, 2025, 5:37pm

New Research & Demo: Intelligent Tokenizer — Attention Needs No Vocabulary

We propose a vocabulary-free, byte-level tokenizer that learns directly from raw UTF-8 bytes.

105M parameters, streaming with 256-byte chunks
Trained across 204 languages (Flores-200)
Preliminary results: English 95% accuracy, Korean 97% (single-lang), multilingual avg 47%

Paper (10.5281/zenodo.17116281)
Hugging Face Space (demo): [link]

I’d love feedback from the tokenizer community on:

Topic		Replies	Views
Is there any more tokenizer-free language model available? Models	0	575	March 12, 2022
Byte Level Tokenizer While Training 🤗Tokenizers	0	94	December 14, 2024
Introducing FlashTokenizer: The World's Fastest Tokenizer Library for LLM Inference 🤗Tokenizers	2	52	March 21, 2025
How can I get a list of word segmentation results for non-English string? 🤗Transformers	14	99	November 6, 2025
Unavailable wav2vec2 tokenizer Intermediate	0	504	December 10, 2021