更大的上下文窗口为什么让RAG变得更重要而非更多余

一旦模型能读完所有内容检索增强生成（RAG）就没有存在的必要了，开发者只需要把整个代码库或者多年的聊天记录塞进 prompt，让模型自行处理，所以AI行业花了好几年追逐更大的上下文窗口：4K → 32K → 128K → 1M tokens。

但是真正在生产环境里这么做的时候就出了问题,因为答案变差了。

在不少实际系统中，更大的上下文窗口反而拖累了模型表现。

问题出在语言模型处理信息的方式上，LLM 依赖注意力机制对不同概念分配权重，而模型容量虽然在增长，无关上下文的密度一旦上升，注意力分配的可靠性就会迅速衰减。噪声灌进来之后，两个架构层面的故障随之出现：注意力稀释与检索崩溃。

posted @ 2026-03-13 22:00 deephub 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

deephub