《60天AI学习计划启动 | Day 28:文档接入与知识库建设(解析 / 清洗 / 入库》
Day 28:文档接入与知识库建设(解析 / 清洗 / 入库)
学习目标
- 梳理 从「原始文件 → 可检索文档」的完整流水线
- 掌握 文档解析、清洗、切片、打标签的基本思路
- 会设计 一套可扩展的「知识库导入流程」
核心知识点
-
1. 文档来源与类型
- 常见:PDF / Word / Excel / Markdown / 网页 / API 返回的 JSON
- 原则:统一抽象为「标准文档对象」,如
{ id, title, content, metadata },方便后续处理
-
2. 文档解析(Parsing)
- 工具:
pdfplumber / PyPDF2 / unstructured / mammoth(docx)等 - 关键点:
- 尽量保留结构:标题、段落、表格、代码块
- 去掉无用元素:页眉页脚、页码、水印、广告
- 工具:
-
3. 文本清洗(Cleaning)
- 常见操作:
- 去掉重复空行、多余空格、无意义符号
- 统一编码与换行风格
- 规范数字/单位/日期格式(便于检索和展示)
- 建议:把清洗逻辑做成一个小 pipeline,方便复用和调整
- 常见操作:
-
4. 切片与元数据(Chunk + Metadata)
- 切片:沿用之前的 Chunk 策略(按段+token 限制)
- 元数据设计(非常关键):
docId / section / level / tags / bizLine / owner / createdAt / source- 后面做权限、过滤、分析全靠这些字段
-
5. 知识库维护
- 版本与更新:
- 文档更新时:软删除旧版本 → 插入新版本(保留版本号)
- 冷/热数据:
- 高频问到的文档可单独建索引或加权提高优先级
- 版本与更新:
实战作业(建议)
-
作业 1:设计一个「标准文档对象」接口
- 至少包含:
id / title / content / metadata - metadata 里写出你当前业务最需要的 5 个字段(如产品线、机型、报表类型等)
- 至少包含:
-
作业 2:写一条“从 PDF 到 chunk”的伪代码流水线
- 步骤:
读取 → 解析 → 清洗 → 切片 → 写入向量库 - 明确每一步的输入/输出结构
- 步骤:
-
作业 3:给现有知识库补一套「文档元数据规范」
- 列表形式写出:字段名 / 类型 / 含义 / 是否必填 / 示例
- 顺便想一下:后面做「筛选条件(下拉/多选)」需要哪些字段
思考 / 笔记要点
- 盘点你现在用来做 RAG 的数据:是 SQL 导出?报表结果?说明文档?先列一个「数据地图」
- 想一想:如果 QA 问“这条结论来自哪里?哪张表/哪份文档?”,你现在能不能通过 metadata 回溯到源头
- 可以写一篇:《从 PDF 到可检索知识库:我在项目里的文档管道设计》,把解析/清洗/入库的经验一次性记下来

浙公网安备 33010602011771号