Transformers documentation
Use tokenizers from 🤗 Tokenizers
Get started
Tutorials
パイプラインを使用して推論を実行するAutoClass を使用して移植可能なコードを作成するデータの前処理事前トレーニングされたモデルを微調整するスクリプトを使用してトレーニングする🤗 Accelerate を使用して分散トレーニングをセットアップする🤗 PEFT を使用してアダプターをロードしてトレーニングするモデルを共有するLLM を使用した生成
Task Guides
自然言語処理
オーディオ
コンピュータビジョン
マルチモーダル
世代
プロンプト
開発者ガイド
🤗 トークナイザーの高速トークナイザーを使用する多言語モデルで推論を実行するモデル固有の API を使用するカスタムモデルを共有するチャットモデルのテンプレートONNX へのエクスポートコミュニティリソーストラブルシューティング
パフォーマンスとスケーラビリティ
概要 大きなモデルのインスタンス化torch.compile()を使用した推論の最適化
効率的なトレーニングテクニック
単一の GPU で効率的にトレーニングするための方法とツール複数の GPU と並列処理CPU での効率的なトレーニング分散CPUトレーニングTPU に関するトレーニング特殊なハードウェアに関するトレーニングトレーニング用のカスタム ハードウェアTrainer API を使用したハイパーパラメータ検索
推論の最適化
貢献する
コンセプチュアルガイド
フィロソフィー用語集🤗 Transformersの機能🤗 Transformersがタスクを解決する方法Transformerモデルファミリートークナイザーの概要注意機構パディングと切り詰めBERTology固定長モデルのパープレキシティWebサーバー推論用パイプラインモデルトレーニングの解剖学
API
You are viewing v5.5.3 version. A newer version v5.8.1 is available.
Use tokenizers from 🤗 Tokenizers
PreTrainedTokenizerFastは🤗 Tokenizersライブラリに依存しています。🤗 Tokenizersライブラリから取得したトークナイザーは、非常に簡単に🤗 Transformersにロードできます。
具体的な内容に入る前に、まずはいくつかの行でダミーのトークナイザーを作成することから始めましょう:
>>> from tokenizers import Tokenizer
>>> from tokenizers.models import BPE
>>> from tokenizers.trainers import BpeTrainer
>>> from tokenizers.pre_tokenizers import Whitespace
>>> tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
>>> trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
>>> tokenizer.pre_tokenizer = Whitespace()
>>> files = [...]
>>> tokenizer.train(files, trainer)私たちは今、定義したファイルにトレーニングされたトークナイザーを持っています。これをランタイムで引き続き使用するか、 将来の再利用のためにJSONファイルに保存することができます。
Loading directly from the tokenizer object
🤗 Transformersライブラリでこのトークナイザーオブジェクトをどのように活用できるかを見てみましょう。PreTrainedTokenizerFastクラスは、 tokenizerオブジェクトを引数として受け入れ、簡単にインスタンス化できるようにします。
>>> from transformers import PreTrainedTokenizerFast
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)このオブジェクトは、🤗 Transformers トークナイザーが共有するすべてのメソッドと一緒に使用できます!詳細については、トークナイザーページをご覧ください。
Loading from a JSON file
JSONファイルからトークナイザーを読み込むには、まずトークナイザーを保存することから始めましょう:
>>> tokenizer.save("tokenizer.json")このファイルを保存したパスは、PreTrainedTokenizerFast の初期化メソッドに tokenizer_file パラメータを使用して渡すことができます:
>>> from transformers import PreTrainedTokenizerFast
>>> fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")このオブジェクトは、🤗 Transformers トークナイザーが共有するすべてのメソッドと一緒に使用できるようになりました!詳細については、トークナイザーページをご覧ください。
Update on GitHub