Tokenizer加载指南

可能加载失败,完全没有载入词典,只是没有报错。

要打印日志确保每一步的结果都校验了!

成功

tokenizer = BertTokenizer.from_pretrained(
    "./my_tokenizer/", 
    do_lower_case=False,
    local_files_only=True
)
print("词汇数量:",len(tokenizer))

失败

tokenizer = BertTokenizer(
    vocab_file="./vocab.txt", 
    do_lower_case=False,
    model_max_length=model_max_length
)
len(tokenizer)
posted @ 2026-01-31 02:50  ylifs  阅读(4)  评论(0)    收藏  举报