Tokenization
摘要:
分词(Tokenization)是自然语言处理(NLP)中的基础预处理步骤,它架起了原始文本与机器学习模型之间的桥梁。分词过程涉及将文本分解为称为“token”的更小单元,随后这些token被转换为数字ID。这些ID会作为LLM的输入,并通过嵌入层映射为捕捉语义含义的向量表示。 分词方法的选择对LL 阅读全文
posted @ 2025-07-19 19:24 limingqi 阅读(55) 评论(0) 推荐(0)
posted @ 2025-07-19 19:24 limingqi 阅读(55) 评论(0) 推荐(0)