摘要: SentencePiece:SentencePiece 是一个提供无监督文本标记化和文本编码的库。它的主要特点是可以在字符级别和单词级别之间找到一个平衡,使用所谓的"subword units"作为标记化的单位。这种方法特别适合处理罕见词和词汇变化。SentencePiece 包括两种主要的标记化算 阅读全文
posted @ 2024-01-02 19:34 hugingface 阅读(316) 评论(0) 推荐(0)