2025 年 7月 19 日随笔档案 - limingqi

2025年7月19日

Tokenization

摘要：分词（Tokenization）是自然语言处理（NLP）中的基础预处理步骤，它架起了原始文本与机器学习模型之间的桥梁。分词过程涉及将文本分解为称为“token”的更小单元，随后这些token被转换为数字ID。这些ID会作为LLM的输入，并通过嵌入层映射为捕捉语义含义的向量表示。分词方法的选择对LL 阅读全文

posted @ 2025-07-19 19:24 limingqi 阅读(91) 评论(0) 推荐(0)

Tokenization

导航

公告