随笔分类 - 大模型开发 / RAG
1
摘要:目录一、总体原则(先说清楚,避免踩雷)二、实验分层设计(这是关键)1️⃣ 实验单元2️⃣ 只做「单变量 + 小范围」实验❌ 不要这样✅ 正确方式(推荐顺序)三、具体 A/B 方案设计(可直接用)阶段 1:T_MIN 主锚点阈值实验实验桶设计核心假设阶段 2:K_MAX 语义发散实验阶段 3:T_MU
阅读全文
摘要:目录一、结论先行(非常重要)但它出现的原因,不是为了提升“整体准确率”,而是为了兜住 向量检索天然不擅长的那一类 query。二、你当前方案的能力边界这个架构非常合理,但它天然有 4 个盲区。三、向量检索的 4 类“硬伤场景”1️⃣ 精确词 / 结构化信息查询(ES 擅长)2️⃣ 否定 / 对比 /
阅读全文
摘要:目录一、先给你一个总判断(非常重要)二、持续提升准确度的 5 条“硬机制”1️⃣ 用「路由原因」反推哪里不准(最关键)你应该长期看什么?2️⃣ 只用 LLM 失败样本,反向喂给 MiniLM(闭环)闭环流程(强烈推荐)一、整体思路二、数据集结构(最标准的格式)1️⃣ 基本样式(JSON / CSV
阅读全文
摘要:目录 【结论】 高性能,语义不太复杂的场景 -选择MiniLM 6L/12L. 12L是12层的意思 中等性能,中等意义复杂度选择 - Sentence-BERT 语义很复杂:Qwen-embedding-large 或者 ext-embedding-3-large(效果更好,但是更贵) 向量化算法
阅读全文
摘要:目录一、补全后的完整伪代码(可直接工程化)二、这套规则“在系统里到底干了什么?”整体一句话决策流程图(文字版)每一步解决的“真实问题”三、关键变量定义 & 推荐取值(你可以直接写进配置)1️⃣ TOP_K2️⃣ T_MULTI(是否参与)3️⃣ T_MIN(是否可信)4️⃣ K_MAX(语义是否发散
阅读全文
摘要:目录1️⃣ 场景差异:去重 vs 意图缓存2️⃣ 为什么意图分类要求更高相似度3️⃣ 总结 你提到的这个差异非常典型,也是很多做 RAG + 意图分类缓存的人容易困惑的地方:为什么文档去重 / 聚类用 0.85~0.9 就够了,但意图分类缓存却要求 0.95~0.98?我们可以从本质原因来分析: 1
阅读全文
摘要:目录刚上线成熟业务增强方案 - 小模型改成 -- 2个小模型投票2个小模型投票 “‘通用大模型做冷启动’意思是:当新业务、长尾场景或数据缺乏时,我们用大模型对这些新 query 或文档进行自动标签或实体抽取,再经人工复核生成训练集,微调小模型上线。这样可以在最短时间内让小模型覆盖新业务,实现系统快速
阅读全文
摘要:目录什么是语义漂移一、场景概览二、原始情况(语义清晰)用户问题:知识库文档:Embedding 空间三、知识库扩展后(语义漂移开始)新增文档:发生的变化检索结果LLM 回答效果四、为什么叫“语义漂移”五、如何面试描述一、MiniLM 在标签化中的作用二、为什么不能完全替代人工或规则1. 语义模糊 /
阅读全文
摘要:目录背景示例一:产品版本和型号的细粒度区分示例二:不同产品线的相似功能示例三:售后政策的版本/时间漂移如何解决?1. 混合检索(Hybrid Search)的强化2. 引入重排器(Re-Ranker)进行细粒度区分3. 增强文档与块(Chunk)的结构性4. 优化向量模型 背景 针对手机销售和售后的
阅读全文
摘要:RAG 缓存方案专为高并发低延迟设计,分为两级拦截: 检索阶段缓存 (Retrieval Cache): 采用 L1 进程内存(精确 Hash 匹配)和 L2 向量索引(相似度匹配)。目标是吸收 70% 左右的重复或相似查询流量,将 L3 向量数据库的查询延迟从 $10-30\text{ms}$ 降
阅读全文
摘要:目录背景和价值一、向量检索的局限性1. 语义相似 ≠ 精确匹配2. 关键词匹配能力弱3. 多条件组合查询困难二、具体问题对比场景 1:精确数值查询场景 2:多条件组合查询场景 3:专业术语/品牌名查询三、向量检索 vs ES 检索的对比四、项目中的实际案例五、为什么需要多路召回:数学原理向量检索的数
阅读全文
摘要:olmOCR (0.3.0) 源自Qwen2.5-VL-7B-Instruct,需要在GPU运行,15G显存。 通用模型, 更新的版本基于qwen3 200+大尺寸模型,需要4张A100 特点:能够识别图片的语义,解析成文本。 格式:1 总结 2 细节 目前 olmOCR 只支持本地部署,硬件条件如
阅读全文
摘要:目录参考资料 RAG 参考资料 https://zhuanlan.zhihu.com/p/1920578973072601126
阅读全文
摘要:目录RAG语义缓存参考资料 价值:提升效率,减少一个LLM处理,节约成本。 为什么是RAG的语义缓存? 如果直接针对用户的query,因为不同的人的权限不同,可能缓存的结果不对。跟传统业务架构一样,缓存一般是在存储层之上。 RAG语义缓存 向量库1:存储的是入Redis缓存的问题(query) Re
阅读全文
摘要:目录背景和价值切片策略一、基于长度的传统切片1. 固定Token数量切片2. 递归字符分割二、语义感知切片策略1. 语义相似性分块器2. 层次语义分割三、基于元数据的智能切片1. 自动标题提取2. 实体感知切分四、高级混合策略1. 动态滑动窗口2. 查询感知切分五、对比与最佳实践六、自定义扩展七、性
阅读全文
摘要:目录背景和价值参考资料 背景和价值 如:用户问感冒药有哪些副作用? 用传递向量库是解决不了问题的。如果用向量库只能检索到 有感冒药的关键字才能查询出来。比如白加黑等各种感冒药就查询不出来。 1 传统向量数据库检索 2 从知识图谱检索出子图生成文档 或者从知识图谱检索到具体的感冒药,再从向量库存检索对
阅读全文
摘要:目录为什么文本需要向量化关键词匹配无法满足精准搜索的需求,使用语义检索工程优化:高效检索与存储为什么要切片?切片有什么要求?文本经过BGE-M3 embeding后是什么?张量(float)*向量的维度相似度匹配的对象是向量而非原始文本?向量化的基本单位是完整文本相似度匹配的对象是向量而非原始文本召
阅读全文
摘要:目录背景固定chunk_size,上下文重叠(5%-10%)语义切片文本切片与嵌入生成流程关键参数说明完整 DEMO 示例相关实践建议参考资料 背景 固定chunk_size,上下文重叠(5%-10%) text_splitter = SentenceSplitter( chunk_size=400
阅读全文
摘要:目录多路召回rerank算法RAG 表格数据处理优化初步方案:最终方案RAG embedding 不准的问题(严格来说不是embedding的问题)RAG性能优化之幻 觉问题RAG模型部署缓存一致性参考资料 多路召回 定义:在RAG的检索阶段,同时使用多种异构的检索方法(如关键词、向量、语义等),从
阅读全文
1

浙公网安备 33010602011771号