摘要:
在大模型驱动的时代,向量模型、索引抽取模型、文本切分模型(chunking)的迭代速度令人目不暇接,几乎每几个月就要升级一次。随之而来的,是Elasticsearch索引结构的频繁变更需求。然而,ES有个众所周知的‘硬伤’:一旦字段的mapping设定,就无法直接修改! 阅读全文
在大模型驱动的时代,向量模型、索引抽取模型、文本切分模型(chunking)的迭代速度令人目不暇接,几乎每几个月就要升级一次。随之而来的,是Elasticsearch索引结构的频繁变更需求。然而,ES有个众所周知的‘硬伤’:一旦字段的mapping设定,就无法直接修改! 阅读全文
posted @ 2025-06-27 07:50
风雨中的小七
阅读(701)
评论(0)
推荐(1)

记忆存储是构建智能个性化、越用越懂你的Agent的核心挑战。上期我们探讨了模型方案实现长记忆存储,本期将聚焦工程实现层面。
- What:记忆内容(手动管理 vs 自动识别)
- How:记忆处理(压缩/抽取 vs 直接存储)
- Where:存储介质(内存/向量库/图数据库)
- Length:记忆长度管理(截断 vs 无限扩展)
- Format:上下文构建方式
- Retrieve:记忆检索机制
Context Cache的使用几乎已经是行业共识,目标是优化大模型首Token的推理延时,在多轮对话,超长System Prompt,超长结构化JSON和Few-shot等应用场景,是不可或缺的。这一章我们主要从原理、一些论文提出的优化项和VLLM开源项目入手,分析下context Cache的实现和适合场景。
本章主要覆盖以下
多Query向量查询的各种方案:Script,Knn(mesearch)
KNN查询IOUtil过高问题排查
如何使用Filter查询更高效
上一章畅想里面我们重点提及了大模型的记忆模块,包括模型能否持续更新记忆模块,模型能否把持续对记忆模块进行压缩更新在有限的参数中存储更高密度的知识信息,从而解决有限context和无限知识之间的矛盾。这一章我们分别介绍两种方案,一种是基于模型结构的Google提出的Titan模型结构,另一种是基于外挂知识库表征对齐的Kbalm
在DeepSeek-R1的开源狂欢之后,感觉不少朋友都陷入了**技术舒适区**,但其实当前的大模型技术只是跨进了应用阶段,可以探索的领域还有不少,所以这一章咱不聊论文了,偶尔不脚踏实地,单纯仰望天空,聊聊还有什么有趣值得探索的领域,哈哈有可能单纯是最近科幻小说看太多的产物~
DeepSeek R1出来后业界都在争相复现R1的效果,这一章我们介绍两个复现项目SimpleRL和LogicRL,还有研究模型推理能力的Cognitive Behaviour,项目在复现R1的同时还针对R1训练策略中的几个关键点进行了讨论和消融实验,包括
而Deep Research的效果类似O1的长思考是非常长的行为链,OpenAI也直接表明Deep Research是使用和O1相同的RL训练得到的。但这里比O1更难的就是数据集的设计,训练过程动态行为数据的引入和RL目标的选择。这一章我们分别介绍从两个不同角度使用RL优化Agent行为链路的方案,其中PaSa更类似Deep Research的链式行为链使用RL直接优化行为路径,而ARMAP则是使用RL优化Verifier指导行为链的生成。
我先按照自己的思路来梳理下R1之前整个模型思维链的发展过程,可以分成3个阶段:大模型能思考,外生慢思考,内生慢思考
春节前DeepSeek R1和Kimi1.5炸翻天了,之前大家推测的O1的实现路径,多数都集中在MCTS推理优化,以及STaR等样本自优化方案等等,结果DeepSeek和Kiim直接出手揭示了reasoning的新路线不一定在SFT和Inference Scaling,也可以在RL。也算是Post Train阶段新的Scaling方向,几个核心Take Away包括
浙公网安备 33010602011771号