jackyyyyyyyyyy - 博客园

2026年3月4日

摘要：多跳 RAG 中的信用分配困境：一次探索之旅引言在构建多跳推理 RAG 系统时，我们常常面临一个棘手的问题：当系统给出错误答案时，我们很难判断问题出在哪里——是检索失败了，还是推理出错了？这个看似简单的问题，实际上揭示了多跳 RAG 系统中一个被系统性忽视的挑战：信用分配混淆（Credit As 阅读全文

posted @ 2026-03-04 17:40 jackyyyyyyyyyy 阅读(2) 评论(0) 推荐(0)

Gainstop-RAG：failed

摘要： Gainstop-RAG：我们试图教会小模型"知道自己不知道" 失败实验系列 · 第一篇做 RAG 系统的人大多遇到过这种情况：明明相关文档都找到了，答案却还是错的。我们花了相当长时间想把这个问题做成一个系统，最后发现问题本身的解法走错了方向。这篇是完整的复盘。一个被所有 RAG 系统忽视的假设阅读全文

posted @ 2026-03-04 17:34 jackyyyyyyyyyy 阅读(1) 评论(0) 推荐(0)

PRIOR-RAG：failed

摘要： PRIOR-RAG：failed 我们试图让7B小模型在多跳问答上打败Claude。实验设计有漏洞，方向有问题，但过程中发现了一些真正有意思的东西。 01 问题从哪里来做RAG的人都遇到过多跳推理失败的场景。传统RAG系统有一个隐含假设，几乎没人明说，但所有实现都在用：语义上相关的文档 = 回答阅读全文

posted @ 2026-03-04 17:20 jackyyyyyyyyyy 阅读(3) 评论(0) 推荐(0)

探讨把强模型推理经验变成可复用资产——最后和Meta撞了

摘要：我们花了几个月研究「把强模型推理经验变成可复用资产」——最后发现 Meta 已经做了这篇文章是一个完整的研究复盘。从一个直觉出发，经历四轮实验、多次方向转变，最终遭遇「撞车」。记录下来，也许对正在做类似事情的人有用。一、最初的直觉故事从一个很朴素的观察开始。用 Claude 回答一道多跳问题阅读全文

posted @ 2026-03-04 17:01 jackyyyyyyyyyy 阅读(2) 评论(0) 推荐(0)

公告