RAG原理完全教程(对照图书馆版)

这是一个面向普通人的RAG教程。你不需要懂机器学习,也不需要懂数学,只要能理解图书馆,就能理解RAG。


第一章 什么是RAG

RAG全称:

Retrieval-Augmented Generation
检索增强生成

核心思想:

先找资料
再回答问题

而不是:

直接靠模型记忆回答

例如:

用户:

盗窃多少钱判刑?

RAG:

先查刑法库
↓
找到相关条文
↓
交给Qwen
↓
生成答案

第二章 图书馆角色对照表

RAG组件 图书馆角色 职责
原始文档 图书 知识来源
Chunk切分器 拆书员 把书拆成知识卡片
Chunk 知识卡片 最小知识单位
Embedding 分类专家 理解内容并确定语义位置
向量(Vector) 地图坐标 知识卡片的位置
FAISS 馆藏索引系统 根据位置找书
Query 用户借书需求 用户的问题
Q向量 用户当前位置 用户需求在地图上的位置
Similarity Search 测距系统 计算距离
TopK 第一轮候选书 最接近的50本
Reranker 资深馆员 重新排序
Context 顾问桌面 能放下的资料
Qwen/LLM 专家顾问 阅读资料并回答
Prompt 工作制度 规定顾问如何工作

第三章 入库流程(向量化流程)

这是正向流程。

即:

文档
↓
知识库

第一步 拆书

一本书:

中华人民共和国刑法

50万字。

不能直接处理。

于是:

拆书员

开始工作。


拆成:

Chunk1
盗窃罪

Chunk2
诈骗罪

Chunk3
故意伤害罪

Chunk4
抢劫罪

得到:

知识卡片

第二步 Embedding

分类专家开始工作。

读取:

Chunk1

盗窃公私财物,
数额较大的...

Embedding理解:

这是盗窃罪相关

然后生成:

C1

[0.23,-0.81,0.55,...]

这不是答案。

这是:

语义坐标

继续:

Chunk2

诈骗罪

C2

[0.31,-0.66,0.42,...]

所有Chunk都完成。


第三步 保存到FAISS

FAISS保存:

向量
↓
Chunk

例如:

C1
↓
Chunk1

C2
↓
Chunk2

C3
↓
Chunk3

图书馆理解:

坐标
↓
书架位置

例如:

法律区A
第3层
第15本

至此:

知识库建立完成

第四章 什么是Embedding

很多人误解:

Embedding
=
压缩工具

错误。


Embedding真正作用:

理解语义
建立坐标

例如:

偷手机

窃取手机

非法占有他人手机

Embedding会认为:

意思接近

于是坐标靠近。


这才是Embedding最重要的能力。


第五章 查询流程(RAG回答流程)

这是反向流程。

即:

用户问题
↓
答案

第一步 用户提问

用户:

偷手机判几年?

第二步 Embedding生成Q

Embedding再次工作。

注意:

这次不是处理Chunk。

而是处理问题。


问题:

偷手机判几年?

Q

[0.25,-0.80,0.57,...]

这个Q叫:

Query Vector
问题向量

图书馆理解:

用户站在地图上的位置

第三步 FAISS检索

FAISS收到:

Q

开始测距。


例如:

Q ↔ C1 = 0.95

Q ↔ C2 = 0.91

Q ↔ C3 = 0.42

Q ↔ C4 = 0.01

得到:

Top50

图书馆理解:

最接近的50本书

第四步 Reranker

Reranker开始工作。


FAISS返回:

盗窃罪量刑

盗窃罪历史沿革

盗窃罪立案标准

诈骗罪量刑

Reranker发现:

用户问:

判几年

重点应该是:

量刑

于是重新排序:

1 盗窃罪量刑

2 司法解释

3 立案标准

4 历史沿革

得到:

Top8

图书馆理解:

最值得给顾问看的8本书

第五步 Qwen回答

Qwen终于开始工作。

看到:

刑法264条

司法解释

量刑标准

然后总结:

根据刑法264条...

生成最终答案。


第六章 FAISS到底干什么

很多人误解:

FAISS懂法律

错误。


FAISS实际上只懂:

向量

它不知道:

盗窃罪

诈骗罪

Python

是什么意思。


它只知道:

Q

离谁最近

因此:

FAISS
=
仓库管理员

第七章 为什么知识明明在库里却回答不出来

这是RAG最常见问题。


情况1

Embedding理解错问题

例如:

偷手机

没有定位到:

盗窃罪区域

结果:

Q偏了

情况2

FAISS召回失败

正确Chunk没进Top50。


情况3

Reranker排序失败

正确答案排第35名。

最终只保留前8名。


情况4

Qwen理解失败

资料已经给了。

但模型能力不足。


第八章 谁最重要

很多人认为:

Qwen最重要

其实不一定。


法律库、技术文档库、企业知识库:

大约可以理解为:

Chunk切分
≈ 30%

Embedding
≈ 30%

Reranker
≈ 20%

LLM
≈ 20%

所以:

找不到资料

通常不是Qwen的问题。

而是:

Chunk

Embedding

FAISS

Reranker

中的某一步出了问题。


最终一句话总结

RAG其实就是一个图书馆:

拆书员
↓
把书拆成知识卡片

Embedding分类专家
↓
给知识卡片建立语义地图

FAISS管理员
↓
根据用户位置找附近的书

Reranker资深馆员
↓
从候选书中挑最相关的

Qwen专家顾问
↓
阅读这些书并回答用户

理解了这套图书馆模型,你就理解了90%以上的RAG工作原理。

以后遇到:

知识明明在库里
为什么答不出来?

不要先怀疑Qwen。

先检查:

问题
↓
Q向量
↓
FAISS Top50
↓
Reranker Top8

看看正确的那本书,究竟是在什么地方被弄丢了。

posted @ 2026-06-24 10:55  打不死的信心  阅读(57)  评论(0)    收藏  举报