摘要: 1. word tokenizer word base方法简单易理解,每个word都分配一个ID,则所需的Vocabulary则根据语料大小而不同,而且这种分词方式,会将两个本身意思一致的词分成两个毫不同的ID,在英文中尤为明显,如cat, cats。 2. character tokenizer 阅读全文
posted @ 2025-04-27 10:57 15375357604 阅读(268) 评论(0) 推荐(0)