关于Tokenizer总结
摘要:
来源huggingface文档https://huggingface.co/transformers/tokenizer_summary.html 文本进行标记是将其拆分为词或子词,然后通过查找表将其转换为 id。Transformer包中使用三种主要类型的分词器: 字节对编码 (BPE)、Word 阅读全文
posted @ 2021-11-19 11:32 nlp如此迷人 阅读(923) 评论(0) 推荐(0)
浙公网安备 33010602011771号