RAG技术浅学习

@

概要
整体架构流程
技术细节
小结

概要

参考：https://www.douyin.com/user/self?from_tab_name=main&modal_id=7609618485493141093&showTab=favorite_collection
https://www.douyin.com/user/self?modal_id=7624093837736119590&showTab=favorite_collection（回答）

之前有尝试自己搭建本地ollama跑个qwen小模型然后切片数据库做个简单的问答，但是也仅仅只是停留在demo阶段，没有更加深入了解，看了视频，这边记录了解了下RAG运行原理。
构建质量直接决定检索效果：收集原始文档，针对不同类型的文件做不同的信息处理

整体架构流程

精细化预处理（垃圾进，垃圾出，保留数据质量）
上下文保持（父子块和重叠机制确保语义完整性）
工程化闭环（混合检索和重排序，保证精度）

技术细节

转成标准的文本：包括ocr识别、去广告及其他杂质；使用unstructured、layout analysis算法；可以提取标题、时间、分类作为元数据为以后检索做准备
切片：递归切分，滑窗重叠；使用embedding模型，存在向量数据库里，使用small-to-big架构，小块用于检索，大块用于提供给大模型做上下文
向量化：双塔模型（通用），bge-m3e可以用于特定行业黑话
向量存储和索引构建：可以使用HNSW构建索引，向量入库时候做IVF-PQ批处理优化
检索增强和验证：混合检索Hybrid Search和重排序Rerank提升召回质量，可以用Hype技术用真实答案模拟去搜

小结

先有个印象，后面真要用到的时候可以回顾这些再进行深一步的学习，掌握

posted @ 2026-04-11 13:02 蜗牛使劲冲阅读(16) 评论(0) 收藏举报

刷新页面返回顶部