rag 系统的关键——结构化

本文出处来自美国牛粪博士的视频

如果用户提问,然后检索提取出相关的内容,然后一股脑的塞入大模型,让大模型自己拼装答案。问题是大模型不是拼凑素材的,大模型需要的是清晰,有组织的输入, 而不是一堆可能相关的碎片。

rag 是否可以从拼段落进化到构建知识,让检索知识不再是杂碎的内容拼贴, 而是有结构,有目的的,有逻辑的信息表述。核心就是三个字,结构化。

任务结构化

不是让大模型去猜用户想要什么知识,检索阶段就明白这类问题,需要什么样的结构,以及生成的时候如何组织答案,从而把段落信息充足,变成任务逻辑。

语义关系

需要给模型一些知识关系,这些信息需要存在检索内容中。现在有很有多结构话rag系统会将材料转化为三元组,谁,做了什么,结果是什么,或者因果链,时间链条,依赖链条。让模型不用猜句子重点,,而是直接看到知识骨架,

生成格式的控制能力

大多数大模型生成的答案都是一段话,一个段落,但是如果你在指令中,明确的说清楚输出结构,大模型也更加愿意给出结构明确的内容。

rag

所以真正成熟的rag 系统,不是我查了一堆,你看着办。而是查的时候,就明确了怎样要求大模型使用这些资料,怎么输出结果,它不仅仅是拼素材,而是在设计答案的信息骨架。

rag 需要做什么

识别用户任务,构建任务结构
抽出语义关系,明确知识链接
知道大模型输出有组织的内容格式

不是让模型自由发挥,而是告诉模型怎么回答才能回答好

posted @ 2025-05-15 22:28  wsl-hitsz  阅读(42)  评论(0)    收藏  举报