霍格沃兹测试开发学社

《Python测试开发进阶训练营》(随到随学!)
2023年第2期《Python全栈开发与自动化测试班》(开班在即)
报名联系weixin/qq:2314507862

一夜之间,AI彻底告别“健忘症”!最难考试拿下99%,全网炸锅

你有没有过这种体验——

跟AI聊了半天,它转头就忘了你叫什么;上个月刚跟它讨论过的事情,今天再问,它一脸懵;你反复强调自己的喜好,它每次都要重新问一遍……

这种感觉,就像在跟一个患有严重健忘症的人对话。

每次开口,都是初次见面。

但就在今天,这一切被彻底改写了。

一个叫Supermemory的团队,向全世界扔出了一颗“核弹”——超级记忆系统ASMR横空出世,在AI记忆界公认最难的考试LongMemEval中,直接拿下了99%的准确率。

消息一出,X(原推特)热榜瞬间被刷爆。

全网只有四个字:太疯狂了。

AI的“金鱼记忆”,终于被治好了
先说说这个考试有多难。

LongMemEval是目前业内公认最严苛的长期记忆测试,没有之一。它不像普通考试那样只考“你记得昨天说了什么”,而是模拟真实世界中的各种混乱场景:

超11.5万字的对话历史、互相矛盾的信息、分散在多个会话中的零碎事件,还有需要推理时间线的复杂问题……

过去的AI记忆系统,在这里基本都“挂科”。能上80%就算顶尖,绝大多数连及格都够呛。

而ASMR交出的答卷是——99%。

这意味着什么?

意味着它不是“大概记得”,而是几乎零遗忘。意味着在面对海量信息、矛盾表述、时间交错的情况下,它依然能精准抓出正确答案。

有业内人士看完数据后只说了一句话:“AI记忆的难题,可能真的被彻底解决了。”

不靠向量数据库,全靠“AI团队”干活
最让人意外的是,ASMR的技术实现思路,反而非常简单。

它抛弃了传统的向量数据库,抛弃了嵌入模式,完全在内存中运行。

简单来说,它不靠“数学相似度”去猜,而是靠真正的“理解”去检索。

怎么做到的?答案是——派出一支AI小分队。

第一步:3个“观察者”并行阅读

当对话数据进来时,3个观察者Agent同时开工,各自负责不同部分的原始会话。它们不是简单地把内容存下来,而是围绕六个维度进行定向提取:个人信息、偏好、事件、时间线、信息更新、助手信息。

每个被提取出来的事实,都会被“原生存储”,并且标记清楚来自哪段对话。

第二步:3个“搜索者”主动推理

当用户提问时,ASMR不会去查向量数据库。它会再派出3个搜索Agent,各自分工:

一个专搜直接事实和明确陈述; 一个挖掘上下文、社交线索和暗示; 一个负责重建时间线和关系图谱。

3个Agent的结果汇总后,还会提取原文逐字片段进行细节验证。

全程没有关键词匹配,没有数学相似度,靠的是实打实的认知理解。

这还没完。为了应对LongMemEval中五花八门的问题类型,团队又做了两种尝试:

一种是让8个高度专业化的提示词变体并行运行,各司其职,只要有任何一个跑出正确答案就算对——准确率直接拉到98.6%。

另一种是构建12个专家Agent组成的“决策森林”,最后由一个聚合模型综合判断,准确率也高达97.2%。

说白了,ASMR不是靠一个“全能选手”硬扛,而是用一群分工明确的专家协同作战。

人工智能技术学习交流群
伙伴们,对AI测试、大模型评测、质量保障感兴趣吗?我们建了一个 「人工智能测试开发交流群」,专门用来探讨相关技术、分享资料、互通有无。无论你是正在实践还是好奇探索,都欢迎扫码加入,一起抱团成长!期待与你交流!👇

image

但ASMR只是一个开始
如果你以为ASMR只是一个刷榜的实验项目,那就太小看这个团队了。

它背后是一个叫Supermemory的完整记忆引擎——一套面向所有AI应用的记忆与上下文基础设施。

团队在GitHub上写得很直白:

你的AI在对话之间什么都记不住,Supermemory来修。

RAG(检索增强生成)很多人都听过,但记忆和RAG其实是两回事。

RAG不认人——今天给张三的回答,明天李四来问也是一样。而Supermemory会从对话中主动提取事实,追踪变化,处理矛盾,甚至自动遗忘。

举个例子:

你上个月说“我住在北京”,这个月又说“我刚搬到上海”。普通的RAG会把两条信息都丢给大模型,让它自己猜该信哪个。而Supermemory知道后者覆盖了前者,只返回“上海”。

更狠的是“自动遗忘”。你说“我明天有个考试”,等日期过了,这条记忆自动失效,不会变成永久噪音。

一次API调用,延迟约50毫秒,你的Agent就知道对面坐的是谁。

把这个用户画像注入到系统提示词里,AI瞬间从“陌生人模式”切换到“老朋友模式”。

记忆,正在成为AI的基础设施
Supermemory还接了一整套外部数据源——Google Drive、Gmail、Notion、OneDrive、GitHub,全部通过实时Webhook自动同步。文档传上去自动处理,PDF解析、图片OCR、视频转录,零配置,传完就能搜。

对开发者来说,集成成本被压到了最低。npm装一个包,几行代码就能给自己的Agent加上完整的记忆能力。Vercel AI SDK、LangChain、LangGraph、OpenAI Agents SDK,主流AI开发框架全部有现成封装。

甚至不用写代码也行——Supermemory提供了MCP服务器,一行命令安装,Claude Desktop、Cursor、Windsurf、VS Code直接就能用。

这场仗,才刚刚开始
过去几年,大模型的竞争一直在参数规模、推理速度、上下文窗口长度这些维度上打转。

但一个128K的上下文窗口再大,对话一结束就清空,下次见面还是陌生人。

记忆,才是让AI从“工具”变成“搭档”的最后一块拼图。

当每一个Agent都能记住你是谁、你在做什么、你上次说到哪里,人机交互的体验会发生一次静悄悄的质变。

不是AI突然变聪明了。

而是它终于不再失忆了。

值得一提的是,ASMR将于4月初开源全部代码。

AI记忆的“大航海时代”,正式开启。

推荐学习
OpenClaw(龙虾)公开课,手把手带你打造24小时不休的AI打工人。

扫码进群,报名学习。

image

关于我们
霍格沃兹测试开发学社,隶属于 测吧(北京)科技有限公司,是一个面向软件测试爱好者的技术交流社区。

学社围绕现代软件测试工程体系展开,内容涵盖软件测试入门、自动化测试、性能测试、接口测试、测试开发、全栈测试,以及人工智能测试与 AI 在测试工程中的应用实践。

我们关注测试工程能力的系统化建设,包括 Python 自动化测试、Java 自动化测试、Web 与 App 自动化、持续集成与质量体系建设,同时探索 AI 驱动的测试设计、用例生成、自动化执行与质量分析方法,沉淀可复用、可落地的测试开发工程经验。

在技术社区与工程实践之外,学社还参与测试工程人才培养体系建设,面向高校提供测试实训平台与实践支持,组织开展 “火焰杯” 软件测试相关技术赛事,并探索以能力为导向的人才培养模式,包括高校学员先学习、就业后付款的实践路径。

同时,学社结合真实行业需求,为在职测试工程师与高潜学员提供名企大厂 1v1 私教服务,用于个性化能力提升与工程实践指导。

posted @ 2026-03-23 17:35  霍格沃兹测试开发学社  阅读(10)  评论(0)    收藏  举报