RAG 知识库数据结构化
一、数据结构化的核心
1.1 原始数据的三大困境
- 检索黑洞:有统计显示,员工平均每天浪费 47 分钟寻找分散在邮件、网盘、本地文档中的信息规章制度信息。
- 分析瘫痪:非结构化数据导致企业无法有效挖掘数据价值,分析不准确。
- 智能鸿沟:LLM 直接处理非结构化文档的准确率不足 60%。
1.2 结构化的三大核心目标
目标维度 | 关键指标提升 | 典型实现路径 |
---|---|---|
检索效率 | 响应速度提升数倍 | 建立多级索引体系 |
分析深度 | 数据关联发现率提高 | 多级分段打标签 |
决策质量 | 预测准确率提升 | 结构化效果体现 |
1.3 数据结构化的三层价值
- 物理层:文档切片与向量化存储
- 逻辑层:元数据标注与关系网络
- 应用层:多维度索引与动态更新
1.4 数据结构化的四大类型
- 问答类:问题答案成对
- 制度类:按章/节分段打标签
- 流程类:按业务节点
- 合同类:按条款类型
二、数据结构化的形式: TXT 和MarkDown?
关于 RAG(检索增强生成)系统是使用 TXT 还是 Markdown 的结构化,这个要看情况,使用的工具和源数据不同,那么结果就会不一样,下面我们来分析一下。
2.1 文本纯净性
- 干扰符号问题:
Markdown 的语法符号(如 # , ** , - , 等)可能被误识别为内容语义的一部分,尤其是在处理来源复杂的文档时。就是有的工具他支持 Markdown,只是可以读取,并不代表都可以很好的解析。
例如:** 重要条款 ** :员工需在_3 个工作日内_提交申请(参见附件A)
** 和 _ 可能干扰关键词提取,附件A 的链接结构需要额外处理等。 - 格式噪声过滤:
处理含 Markdown 的文档时:语义理解错误率增加 (因符号冲突),向量化效率降低(需额外清洗步骤)。
2.2 系统兼容性
- 跨平台一致性:
TXT 是通用性最强的格式,我们不保证只使用一个工具,避免因 Markdown 解析器差异而导致的内容表现不一致。 - 轻量化处理:
TXT 格式平均文件大小较小,占用更少的 tockens,解析也更快速。
2.3 检索优化的本质需求
语义聚焦原则:RAG 的核心目标是提取原始语义,而非排版信息。
保留 Markdown 格式可能引入非关键特征,降低检索相关性。
例如:
### **第四章 绩效考核**
1. **考核周期**
- 月度考核(占比70%):每月最后一周完成。
- 年度综合考核(占比30%):次年2月完成。
转换为 TXT
标题1:绩效考核
标题2:考核周期
内容:月度考核(占比70%):每月最后一周完成。年度综合考核(占比30%):次年2月完成。
####
在大多数 RAG 场景中优先使用清洗后的 TXT,确保高效、纯净的语义处理。
三、利用大模型来清洗数据
使用文本提取的功能,将任意文档中的文本信息进行提取,在通过大模型进行处理,处理后生成出总结式文本,所以需要在大模型的提示词处进行说明,这里提供一种提示词:
你是一个数据结构化的专家,对{文档提取内容}内容进行结构化,按照下面的样例格式处理,每项内容的类型1是总标题,章节为标题2,每项内容之后添加“=#=#”,最终以txt文本的格式输出。
样例:
转化前:
A公司规则制度(2025版)
第一章 总则
1.目的
规范员工行为,保障公司运营秩序,明确权利义务,提升组织效能。
2.适用范围
全体正式员工、试用期员工及兼职人员。
3.修订机制
每年12月修订,需经董事会审议通过后生效。
转换后:
类型1:A公司规章制度(2025版)
类型2:总则
类型3:目的
内容:规范员工行为,保障公司运营秩序,明确权利义务,提升组织效能。
=#=#
类型1:A公司规则制度(2025版)
类型2:总则
类型3:适用范围
内容:全体正式员工、试用期员工及兼职人员。
=#=#
类型1:A公司规则制度(2025版)
类型2:总则
类型3:修订机制
内容:每年12月修订,需经董事会审议通过后生效。
=#=#
生成以后的文档使用自定义分隔符“=#=#“即可正常分类。
本文来自博客园,作者:一月一星辰,转载请注明原文链接:https://www.cnblogs.com/tangwc/p/18822985