RAG 知识库数据结构化

一、数据结构化的核心

1.1 原始数据的三大困境

  • 检索黑洞:有统计显示,员工平均每天浪费 47 分钟寻找分散在邮件、网盘、本地文档中的信息规章制度信息。
  • 分析瘫痪:非结构化数据导致企业无法有效挖掘数据价值,分析不准确。
  • 智能鸿沟:LLM 直接处理非结构化文档的准确率不足 60%。

1.2 结构化的三大核心目标

目标维度 关键指标提升 典型实现路径
检索效率 响应速度提升数倍 建立多级索引体系
分析深度 数据关联发现率提高 多级分段打标签
决策质量 预测准确率提升 结构化效果体现

1.3 数据结构化的三层价值

  1. 物理层:文档切片与向量化存储
  2. 逻辑层:元数据标注与关系网络
  3. 应用层:多维度索引与动态更新

1.4 数据结构化的四大类型

  • 问答类:问题答案成对
  • 制度类:按章/节分段打标签
  • 流程类:按业务节点
  • 合同类:按条款类型

二、数据结构化的形式: TXT 和MarkDown?

关于 RAG(检索增强生成)系统是使用 TXT 还是 Markdown 的结构化,这个要看情况,使用的工具和源数据不同,那么结果就会不一样,下面我们来分析一下。

2.1 文本纯净性

  • 干扰符号问题
    Markdown 的语法符号(如 # , ** , - , 等)可能被误识别为内容语义的一部分,尤其是在处理来源复杂的文档时。就是有的工具他支持 Markdown,只是可以读取,并不代表都可以很好的解析。
    例如:** 重要条款 ** :员工需在_3 个工作日内_提交申请(参见附件A
    ** 和 _ 可能干扰关键词提取,附件A 的链接结构需要额外处理等。
  • 格式噪声过滤
    处理含 Markdown 的文档时:语义理解错误率增加 (因符号冲突),向量化效率降低(需额外清洗步骤)。

2.2 系统兼容性

  • 跨平台一致性
    TXT 是通用性最强的格式,我们不保证只使用一个工具,避免因 Markdown 解析器差异而导致的内容表现不一致。
  • 轻量化处理
    TXT 格式平均文件大小较小,占用更少的 tockens,解析也更快速。

2.3 检索优化的本质需求

语义聚焦原则:RAG 的核心目标是提取原始语义,而非排版信息。
保留 Markdown 格式可能引入非关键特征,降低检索相关性。
例如:

### **第四章 绩效考核** 
1. **考核周期** 
- 月度考核(占比70%):每月最后一周完成。 
- 年度综合考核(占比30%):次年2月完成。 

转换为 TXT

标题1:绩效考核
标题2:考核周期
内容:月度考核(占比70%):每月最后一周完成。年度综合考核(占比30%):次年2月完成。
####

在大多数 RAG 场景中优先使用清洗后的 TXT,确保高效、纯净的语义处理。

三、利用大模型来清洗数据

使用文本提取的功能,将任意文档中的文本信息进行提取,在通过大模型进行处理,处理后生成出总结式文本,所以需要在大模型的提示词处进行说明,这里提供一种提示词:

你是一个数据结构化的专家,对{文档提取内容}内容进行结构化,按照下面的样例格式处理,每项内容的类型1是总标题,章节为标题2,每项内容之后添加“=#=#”,最终以txt文本的格式输出。
样例:
转化前:
A公司规则制度(2025版)
第一章 总则
1.目的
规范员工行为,保障公司运营秩序,明确权利义务,提升组织效能。
2.适用范围
全体正式员工、试用期员工及兼职人员。
3.修订机制
每年12月修订,需经董事会审议通过后生效。
转换后:
类型1:A公司规章制度(2025版)
类型2:总则
类型3:目的
内容:规范员工行为,保障公司运营秩序,明确权利义务,提升组织效能。
=#=#
类型1:A公司规则制度(2025版)
类型2:总则
类型3:适用范围
内容:全体正式员工、试用期员工及兼职人员。
=#=#
类型1:A公司规则制度(2025版)
类型2:总则
类型3:修订机制
内容:每年12月修订,需经董事会审议通过后生效。
=#=#

生成以后的文档使用自定义分隔符“=#=#“即可正常分类。

posted @ 2025-04-13 10:15  一月一星辰  阅读(287)  评论(0)    收藏  举报