《60天AI学习计划启动 | Day 28:文档接入与知识库建设(解析 / 清洗 / 入库》

Day 28:文档接入与知识库建设(解析 / 清洗 / 入库)

学习目标

  • 梳理 从「原始文件 → 可检索文档」的完整流水线
  • 掌握 文档解析、清洗、切片、打标签的基本思路
  • 会设计 一套可扩展的「知识库导入流程」

核心知识点

  • 1. 文档来源与类型

    • 常见:PDF / Word / Excel / Markdown / 网页 / API 返回的 JSON
    • 原则:统一抽象为「标准文档对象」,如 { id, title, content, metadata },方便后续处理
  • 2. 文档解析(Parsing)

    • 工具:pdfplumber / PyPDF2 / unstructured / mammoth(docx)
    • 关键点:
      • 尽量保留结构:标题、段落、表格、代码块
      • 去掉无用元素:页眉页脚、页码、水印、广告
  • 3. 文本清洗(Cleaning)

    • 常见操作:
      • 去掉重复空行、多余空格、无意义符号
      • 统一编码与换行风格
      • 规范数字/单位/日期格式(便于检索和展示)
    • 建议:把清洗逻辑做成一个小 pipeline,方便复用和调整
  • 4. 切片与元数据(Chunk + Metadata)

    • 切片:沿用之前的 Chunk 策略(按段+token 限制)
    • 元数据设计(非常关键):
      • docId / section / level / tags / bizLine / owner / createdAt / source
      • 后面做权限、过滤、分析全靠这些字段
  • 5. 知识库维护

    • 版本与更新:
      • 文档更新时:软删除旧版本 → 插入新版本(保留版本号)
    • 冷/热数据:
      • 高频问到的文档可单独建索引或加权提高优先级

实战作业(建议)

  • 作业 1:设计一个「标准文档对象」接口

    • 至少包含:id / title / content / metadata
    • metadata 里写出你当前业务最需要的 5 个字段(如产品线、机型、报表类型等)
  • 作业 2:写一条“从 PDF 到 chunk”的伪代码流水线

    • 步骤:读取 → 解析 → 清洗 → 切片 → 写入向量库
    • 明确每一步的输入/输出结构
  • 作业 3:给现有知识库补一套「文档元数据规范」

    • 列表形式写出:字段名 / 类型 / 含义 / 是否必填 / 示例
    • 顺便想一下:后面做「筛选条件(下拉/多选)」需要哪些字段

思考 / 笔记要点

  • 盘点你现在用来做 RAG 的数据:是 SQL 导出?报表结果?说明文档?先列一个「数据地图」
  • 想一想:如果 QA 问“这条结论来自哪里?哪张表/哪份文档?”,你现在能不能通过 metadata 回溯到源头
  • 可以写一篇:《从 PDF 到可检索知识库:我在项目里的文档管道设计》,把解析/清洗/入库的经验一次性记下来
posted @ 2025-12-17 09:34  XiaoZhengTou  阅读(3)  评论(0)    收藏  举报