教育RAG系统完整需求清单

教育RAG系统完整需求清单

基于技术方案对比、实施方案和难点分析,整理出的完整需求清单
项目代码统一管理在 D:\ai 目录下


📋 一、项目概述

1.1 项目目标

构建一个智能教材问答系统,实现:

  • 学生提问课本相关问题
  • 系统自动检索课本内容
  • 基于检索结果生成准确答案
  • 标注答案来源(章节、页码)

1.2 技术架构

前端层: Dify Web界面(内置)
    ↓
应用层: Dify工作流编排
    ↓
服务层: Dify API + Ollama
    ↓
数据层: Dify知识库 + PostgreSQL + Weaviate
    ↓
模型层: Ollama (qwen2.5:7b) + 嵌入模型

1.3 项目目录结构

D:\ai\
├── dify-main\              # Dify平台(已存在)
│   └── docker\             # Docker配置
├── ollama\                 # Ollama相关配置
├── education-rag\          # 教育RAG项目代码
│   ├── docs\              # 文档
│   ├── scripts\           # 脚本工具
│   ├── data\              # 数据文件
│   │   ├── textbooks\     # 课本PDF
│   │   ├── training\      # 训练数据
│   │   └── backups\       # 备份
│   ├── config\            # 配置文件
│   └── logs\             # 日志
└── 需求清单.md            # 本文档

🎯 二、核心功能需求

2.1 知识库管理(Dify内置)

FR-001: 知识库创建

FR-002: 文档上传与处理

FR-003: 文档预处理优化

优先级:P0(核心功能)


2.2 问答功能(Dify工作流)

FR-004: 基础问答

FR-005: 答案质量控制

FR-006: 多轮对话支持

优先级:P0(核心功能)


2.3 检索优化

FR-007: 检索策略优化

FR-008: 检索准确性提升

优先级:P1(重要优化)


2.4 特殊内容处理

FR-009: 公式处理

FR-010: 图表处理

优先级:P2(增强功能)


🔧 三、技术实现需求

3.1 环境配置

TR-001: Docker环境

TR-002: Dify平台部署

TR-003: Ollama配置

优先级:P0(基础环境)


3.2 模型配置

TR-004: 模型参数优化

TR-005: Prompt模板

TR-006: 模型微调(可选)

优先级:P1(性能优化)


3.3 数据处理工具

TR-007: 文档预处理脚本

TR-008: 数据质量检查

优先级:P1(工具开发)


📊 四、非功能需求

4.1 性能需求

NFR-001: 响应时间

NFR-002: 准确性

优先级:P1(性能指标)


4.2 可用性需求

NFR-003: 访问方式

NFR-004: 用户界面

优先级:P1(用户体验)


4.3 可维护性需求

NFR-005: 监控和日志

NFR-006: 备份和恢复

优先级:P2(运维支持)


📚 五、数据需求

5.1 课本数据

DR-001: 课本准备

DR-002: 数据质量

优先级:P0(核心数据)


5.2 训练数据(微调用)

DR-003: 问答对收集

优先级:P3(微调准备)


🎨 六、用户体验需求

6.1 学生使用

UR-001: 提问体验

UR-002: 答案展示

UR-003: 使用指南

优先级:P1(用户体验)


6.2 教师管理

UR-004: 后台管理

UR-005: 内容管理

优先级:P1(管理功能)


🚀 七、实施计划

7.1 第一阶段:基础功能(Week 1-2)

目标: 完成核心问答功能

交付物:

  • 可用的问答系统
  • 测试报告

7.2 第二阶段:优化提升(Week 3-4)

目标: 提升答案质量和检索准确性

交付物:

  • 优化后的系统
  • 性能测试报告

7.3 第三阶段:增强功能(Week 5-6)

目标: 添加增强功能和特殊处理

交付物:

  • 完整功能系统
  • 用户文档

7.4 第四阶段:持续优化(Week 7+)

目标: 数据收集和模型微调准备

交付物:

  • 优化报告
  • 微调模型(如需要)

📝 八、技术债务和风险

8.1 已知风险

风险1:检索不准确

  • 影响:
  • 应对: 优化分块策略、混合检索、元数据过滤

风险2:答案质量不稳定

  • 影响:
  • 应对: Prompt优化、Temperature调低、答案验证

风险3:响应速度慢

  • 影响:
  • 应对: 优化检索、减少Top K、考虑GPU加速

风险4:公式和图表处理

  • 影响:
  • 应对: 预处理脚本、人工标注

8.2 技术债务


✅ 九、验收标准

9.1 功能验收

9.2 性能验收

9.3 用户体验验收


📦 十、交付物清单

10.1 系统交付

10.2 文档交付

10.3 代码交付


🎯 十一、优先级总结

P0 - 必须实现(核心功能)

  • 知识库创建和管理
  • 文档上传和处理
  • 基础问答功能
  • 答案来源标注
  • 环境部署

P1 - 重要功能(性能优化)

  • Prompt优化
  • 检索策略优化
  • 答案质量控制
  • 多轮对话优化
  • 性能监控

P2 - 增强功能(可选)

  • 公式处理
  • 图表处理
  • 混合检索
  • 界面定制

P3 - 未来功能(长期)

  • 模型微调
  • 多模态支持
  • 高级分析

📅 十二、时间估算

阶段 任务 时间 累计
Week 1-2 基础功能 20小时 20小时
Week 3-4 优化提升 20小时 40小时
Week 5-6 增强功能 20小时 60小时
Week 7+ 持续优化 持续 -

总计: 60小时(约2个月,每周10小时)


🔗 十三、相关文档

  1. 技术方案对比文档 - 4种方案对比分析
  2. 实施方案文档 - 9个阶段详细步骤
  3. 难点与微调指南 - 5大难点和解决方案
  4. 本文档 - 完整需求清单

📝 更新记录

  • 2026-01-17: 初始版本,
posted @ 2026-01-17 16:35  XiaoZhengTou  阅读(2)  评论(0)    收藏  举报