《60天AI学习计划启动 | Day 28:文档接入与知识库建设（解析 / 清洗 / 入库》

Day 28：文档接入与知识库建设（解析 / 清洗 / 入库）

1. 文档来源与类型
- 常见：PDF / Word / Excel / Markdown / 网页 / API 返回的 JSON
- 原则：统一抽象为「标准文档对象」，如 { id, title, content, metadata }，方便后续处理
2. 文档解析（Parsing）
- 工具：pdfplumber / PyPDF2 / unstructured / mammoth(docx) 等
- 关键点：
  - 尽量保留结构：标题、段落、表格、代码块
  - 去掉无用元素：页眉页脚、页码、水印、广告
3. 文本清洗（Cleaning）
- 常见操作：
  - 去掉重复空行、多余空格、无意义符号
  - 统一编码与换行风格
  - 规范数字/单位/日期格式（便于检索和展示）
- 建议：把清洗逻辑做成一个小 pipeline，方便复用和调整
4. 切片与元数据（Chunk + Metadata）
- 切片：沿用之前的 Chunk 策略（按段+token 限制）
- 元数据设计（非常关键）：
  - docId / section / level / tags / bizLine / owner / createdAt / source
  - 后面做权限、过滤、分析全靠这些字段
5. 知识库维护
- 版本与更新：
  - 文档更新时：软删除旧版本 → 插入新版本（保留版本号）
- 冷/热数据：
  - 高频问到的文档可单独建索引或加权提高优先级

作业 1：设计一个「标准文档对象」接口
- 至少包含：id / title / content / metadata
- metadata 里写出你当前业务最需要的 5 个字段（如产品线、机型、报表类型等）
作业 2：写一条“从 PDF 到 chunk”的伪代码流水线
- 步骤：读取 → 解析 → 清洗 → 切片 → 写入向量库
- 明确每一步的输入/输出结构
作业 3：给现有知识库补一套「文档元数据规范」
- 列表形式写出：字段名 / 类型 / 含义 / 是否必填 / 示例
- 顺便想一下：后面做「筛选条件（下拉/多选）」需要哪些字段

posted @ 2025-12-17 09:34 XiaoZhengTou 阅读(28) 评论(0) 收藏举报

刷新页面返回顶部