RAG工作机制详解
RAG(Retrieval-Augment-Generation) 检索-增强-生成
- 先从资料库中检索相关内容
- 再基于这些内容来生成答案

RAG的使用场景
产品手册太长带来的问题
1.模型无法读取所有内容 2.模型推理成本高 3.模型推理慢
RAG处理流程

问题: 如何分片、如何选择相关的片段
分片
分片方式:
- 按字数分
- 按段落分
- 按章节分
- 按页码分
索引
- 通过Embedding将片段文本转换成为向量
- 将片段文本和片段向量存入向量数据库中
向量
概念:有大小有方向的量
eg: [1.0, 2.3, 5.76, 5.8, 10.1, -3.6]
每个向量都有维度
Embedding - 将文本转换为向量的过程

向量数据库 - 用于存储和查询向量的数据库


召回 - 搜索与用户问题相关的片段


向量相似度计算方法
- 余弦相似度:计算两个向量之间夹角的cos值,判断cos值当值越小 =》 相似度越高

- 欧式距离:计算两个向量之间的距离,距离越小,相似度越高

- 点积:从A向B引入一条垂线: a * b的乘积越大代表相似度越高

重排 - 重新排序


生成答案过程


学而不思则罔,思而不学则殆!



浙公网安备 33010602011771号