RAG 知识库数据结构化

一、数据结构化的核心

1.1 原始数据的三大困境

检索黑洞：有统计显示，员工平均每天浪费 47 分钟寻找分散在邮件、网盘、本地文档中的信息规章制度信息。
分析瘫痪：非结构化数据导致企业无法有效挖掘数据价值，分析不准确。
智能鸿沟：LLM 直接处理非结构化文档的准确率不足 60%。

1.2 结构化的三大核心目标

目标维度	关键指标提升	典型实现路径
检索效率	响应速度提升数倍	建立多级索引体系
分析深度	数据关联发现率提高	多级分段打标签
决策质量	预测准确率提升	结构化效果体现

1.3 数据结构化的三层价值

物理层：文档切片与向量化存储
逻辑层：元数据标注与关系网络
应用层：多维度索引与动态更新

1.4 数据结构化的四大类型

问答类：问题答案成对
制度类：按章/节分段打标签
流程类：按业务节点
合同类：按条款类型

二、数据结构化的形式: TXT 和MarkDown？

关于 RAG（检索增强生成）系统是使用 TXT 还是 Markdown 的结构化，这个要看情况，使用的工具和源数据不同，那么结果就会不一样，下面我们来分析一下。

2.1 文本纯净性

干扰符号问题：
Markdown 的语法符号（如 # , ** , - , 等）可能被误识别为内容语义的一部分，尤其是在处理来源复杂的文档时。就是有的工具他支持 Markdown，只是可以读取，并不代表都可以很好的解析。
例如：** 重要条款 ** ：员工需在_3 个工作日内_提交申请（参见附件A）
** 和 _ 可能干扰关键词提取，附件A 的链接结构需要额外处理等。
格式噪声过滤：
处理含 Markdown 的文档时：语义理解错误率增加（因符号冲突），向量化效率降低（需额外清洗步骤）。

2.2 系统兼容性

跨平台一致性：
TXT 是通用性最强的格式，我们不保证只使用一个工具，避免因 Markdown 解析器差异而导致的内容表现不一致。
轻量化处理：
TXT 格式平均文件大小较小，占用更少的 tockens，解析也更快速。

2.3 检索优化的本质需求

语义聚焦原则：RAG 的核心目标是提取原始语义，而非排版信息。
保留 Markdown 格式可能引入非关键特征，降低检索相关性。
例如：

### **第四章 绩效考核** 
1. **考核周期** 
- 月度考核（占比70%）：每月最后一周完成。 
- 年度综合考核（占比30%）：次年2月完成。

转换为 TXT

标题1:绩效考核
标题2:考核周期
内容:月度考核（占比70%）：每月最后一周完成。年度综合考核（占比30%）：次年2月完成。
####

在大多数 RAG 场景中优先使用清洗后的 TXT，确保高效、纯净的语义处理。

三、利用大模型来清洗数据

使用文本提取的功能，将任意文档中的文本信息进行提取，在通过大模型进行处理，处理后生成出总结式文本，所以需要在大模型的提示词处进行说明，这里提供一种提示词：

你是一个数据结构化的专家，对{文档提取内容}内容进行结构化，按照下面的样例格式处理，每项内容的类型1是总标题，章节为标题2，每项内容之后添加“=#=#”，最终以txt文本的格式输出。
样例：
转化前：
A公司规则制度（2025版）
第一章 总则
1.目的
规范员工行为，保障公司运营秩序，明确权利义务，提升组织效能。
2.适用范围
全体正式员工、试用期员工及兼职人员。
3.修订机制
每年12月修订，需经董事会审议通过后生效。
转换后：
类型1：A公司规章制度（2025版）
类型2：总则
类型3：目的
内容：规范员工行为，保障公司运营秩序，明确权利义务，提升组织效能。
=#=#
类型1：A公司规则制度（2025版）
类型2：总则
类型3：适用范围
内容：全体正式员工、试用期员工及兼职人员。
=#=#
类型1：A公司规则制度（2025版）
类型2：总则
类型3：修订机制
内容：每年12月修订，需经董事会审议通过后生效。
=#=#

生成以后的文档使用自定义分隔符“=#=#“即可正常分类。

posted @ 2025-04-13 10:15 一月一星辰阅读(409) 评论(0) 收藏举报

刷新页面返回顶部

一月一星辰

每天只想摆烂的搬砖人