LLM Course documentation
Tokenizers, kiểm tra nào!
0. Cài đặt
1. Mô hình Transformer
2. Sử dụng 🤗 Transformers
3. Tinh chỉnh một mô hình huấn luyện trước
4. Chia sẻ các mô hình và tokenizer
5. Thư viện 🤗 Datasets
6. Thư viện 🤗 Tokenizers
Giới thiệuHuấn luyện một tokenizer mới từ cái cũSức mạnh đặc biệt của tokenizer nhanhTokenizer nhanh trong pipeline QAChuẩn hoá và tiền tokenizeByte-Pair Encoding tokenizationWordPiece tokenizationUnigram tokenizationXây dựng từng khối tokenizerTokenizers, kiểm tra nào!Đố vui cuối chương
7. Các tác vụ NLP chính
8. Làm thế nào để yêu cầu giúp đỡ
9. Xây dựng và chia sẻ các demo
Sự kiện Khoá học
Tokenizers, kiểm tra nào!
Chúc mừng bạn đã hoàn thành chương này!
Sau khi tìm hiểu sâu về tokenizer, bạn nên:
- Có thể huấn luyện một tokenizer mới bằng cách sử dụng một cái cũ làm mẫu
- Hiểu cách sử dụng hiệu số để ánh xạ vị trí của token với khoảng văn bản ban đầu của chúng
- Biết sự khác biệt giữa BPE, WordPiece và Unigram
- Có thể trộn và kết hợp các khối được cung cấp bởi thư viện 🤗 Tokenizers để xây dựng tokenizer của riêng bạn
- Có thể sử dụng tokenizer đó trong thư viện 🤗 Transformers