什么是 embedding ？

学习RAG的时候，听到说把文本进行拆分，然后对每一段做 embedding，不知道这里说的embedding是什么意思。

查了一下：

“对每一段做 embedding” ，是自然语言处理（NLP）中的一个核心操作。

简单来说，就是将文本中的每一个段落（或句子、短语）转化为一串数字（向量），让计算机能够 “理解” 文本的语义信息。

什么是 embedding？Embedding（嵌入）是一种将非结构化数据（如文本、图像）转化为结构化的数字向量的技术。对于文本来说，它的核心作用是把文字的 “语义含义” 编码成计算机能处理的数字形式。比如，“猫” 和 “狗” 都是动物，它们的 embedding 向量会比较相似；而 “猫” 和 “汽车” 的向量则差异很大 —— 这种向量的 “相似性” 直接反映了文本含义的 “相关性”。
“对每一段” 做 embedding 的意义？当处理一篇长文档（如一篇论文、一本书）时，我们通常会先把它拆分成多个段落（或句子），然后给每个段落单独生成一个 embedding 向量。这么做的原因是：
- 长文本的整体含义复杂，拆分后能更精准地捕捉局部语义（比如某一段专门讲 “算法原理”，另一段讲 “应用场景”）；
- 后续在做 “语义搜索” 或 “问答匹配” 时（比如 RAG 场景），可以直接用用户的问题生成向量，然后快速找到与问题向量最相似的段落向量 —— 相当于让计算机 “定位” 到文档中最相关的内容。
举个例子：假设你有一段文本：
- 段落 1：“人工智能是研究使计算机能模拟人类智能的科学。”
- 段落 2：“机器学习是人工智能的一个分支，专注于让机器从数据中学习。”
对这两段做 embedding 后，会得到两个向量（比如各是 768 维的数字）：
- 段落 1 的向量和段落 2 的向量会比较相似（因为都和 “人工智能” 相关）；
- 如果有第三个段落讲 “咖啡的制作方法”，它的向量会和前两个差异很大。

核心目的：

通过将每一段转化为向量，计算机就能用数学方法（如计算向量之间的余弦相似度）快速判断 “两段文本的含义是否相近”，这是实现语义搜索、智能问答、文档摘要等功能的基础。比如在知识库系统中，当你提问时，系统会先把问题转化为向量，再对比所有段落的 embedding 向量，找到最相关的内容来生成回答。

posted @ 2025-10-13 20:13 Sameen 阅读(12) 评论(0) 收藏举报

刷新页面返回顶部

Sameen

什么是 embedding ？

核心目的：

公告