关于Tokenizer总结
摘要:来源huggingface文档https://huggingface.co/transformers/tokenizer_summary.html 文本进行标记是将其拆分为词或子词,然后通过查找表将其转换为 id。Transformer包中使用三种主要类型的分词器: 字节对编码 (BPE)、Word
阅读全文
posted @ 2021-11-19 11:32
posted @ 2021-11-19 11:32