教育RAG系统完整需求清单

基于技术方案对比、实施方案和难点分析，整理出的完整需求清单
项目代码统一管理在 D:\ai 目录下

📋 一、项目概述

1.1 项目目标

构建一个智能教材问答系统，实现：

学生提问课本相关问题
系统自动检索课本内容
基于检索结果生成准确答案
标注答案来源（章节、页码）

1.2 技术架构

前端层: Dify Web界面（内置）
    ↓
应用层: Dify工作流编排
    ↓
服务层: Dify API + Ollama
    ↓
数据层: Dify知识库 + PostgreSQL + Weaviate
    ↓
模型层: Ollama (qwen2.5:7b) + 嵌入模型

1.3 项目目录结构

D:\ai\
├── dify-main\              # Dify平台（已存在）
│   └── docker\             # Docker配置
├── ollama\                 # Ollama相关配置
├── education-rag\          # 教育RAG项目代码
│   ├── docs\              # 文档
│   ├── scripts\           # 脚本工具
│   ├── data\              # 数据文件
│   │   ├── textbooks\     # 课本PDF
│   │   ├── training\      # 训练数据
│   │   └── backups\       # 备份
│   ├── config\            # 配置文件
│   └── logs\             # 日志
└── 需求清单.md            # 本文档

🎯 二、核心功能需求

2.1 知识库管理（Dify内置）

FR-001: 知识库创建

支持创建多个知识库（按科目/年级）
知识库命名和描述
选择嵌入模型（nomic-embed-text）
配置检索参数（Top K、相似度阈值）

FR-002: 文档上传与处理

FR-003: 文档预处理优化

智能分块策略（按章节、段落）
元数据提取（章节、页码、关键词）
公式和特殊符号处理
图表内容标注（人工或自动）

优先级：P0（核心功能）

2.2 问答功能（Dify工作流）

FR-004: 基础问答

学生输入问题
系统检索相关知识
基于检索结果生成答案
显示答案来源

FR-005: 答案质量控制

FR-006: 多轮对话支持

对话历史管理（Dify内置）
指代词消歧（"它"、"这个"等）
上下文理解优化
对话轮数限制

优先级：P0（核心功能）

2.3 检索优化

FR-007: 检索策略优化

向量检索（当前）
混合检索（向量+关键词BM25）
元数据过滤检索
重排序（Re-ranking）

FR-008: 检索准确性提升

分块策略优化（语义分块）
重叠窗口调整
相似度阈值调优
Top K参数优化

优先级：P1（重要优化）

2.4 特殊内容处理

FR-009: 公式处理

公式识别和提取
公式转文字描述
公式向量化优化
公式显示格式

FR-010: 图表处理

图表识别
图表描述生成（人工标注）
多模态模型集成（可选）
图表与文本关联

优先级：P2（增强功能）

🔧 三、技术实现需求

3.1 环境配置

TR-001: Docker环境

Docker Desktop安装
Docker Compose配置
WSL2配置（Windows）
内存配置（8GB）

TR-002: Dify平台部署

Dify Docker部署
环境变量配置
数据库初始化
管理员账号创建

TR-003: Ollama配置

Ollama Docker部署
模型下载（qwen2.5:7b）
嵌入模型下载
Dify与Ollama连接

优先级：P0（基础环境）

3.2 模型配置

TR-004: 模型参数优化

Temperature: 0.3（稳定性）
Max Tokens: 2000
Top P: 0.9
频率惩罚和存在惩罚

TR-005: Prompt模板

系统角色定义
回答规则约束
Few-Shot示例
格式要求

TR-006: 模型微调（可选）

训练数据准备（1000+样本）
LoRA微调配置
微调效果评估
模型部署

优先级：P1（性能优化）

3.3 数据处理工具

TR-007: 文档预处理脚本

PDF文本提取
智能分块脚本
元数据提取脚本
公式处理脚本

TR-008: 数据质量检查

文档质量检查
分块质量评估
向量化质量检查
检索效果测试

优先级：P1（工具开发）

📊 四、非功能需求

4.1 性能需求

NFR-001: 响应时间

检索时间 < 1秒
生成时间 < 5秒（CPU）
总响应时间 < 6秒
并发支持（10+用户）

NFR-002: 准确性

检索准确率 > 80%
答案准确率 > 85%
来源标注准确率 > 90%

优先级：P1（性能指标）

4.2 可用性需求

NFR-003: 访问方式

本地访问（localhost）
内网访问（192.168.x.x）
远程访问（Tailscale/Cloudflare）
移动端适配

NFR-004: 用户界面

Dify内置Web界面
界面定制（可选）
响应式设计

优先级：P1（用户体验）

4.3 可维护性需求

NFR-005: 监控和日志

系统运行状态监控
使用统计（提问数、用户数）
错误日志记录
性能指标监控

NFR-006: 备份和恢复

数据库备份脚本
知识库备份
配置文件备份
恢复流程

优先级：P2（运维支持）

📚 五、数据需求

5.1 课本数据

DR-001: 课本准备

初中生物九年级（上下册）
物理、化学课本（可选）
文字版PDF（非扫描版）
文件命名规范

DR-002: 数据质量

文字可复制（非扫描）
章节结构清晰
公式显示正常
图表清晰

优先级：P0（核心数据）

5.2 训练数据（微调用）

DR-003: 问答对收集

收集1000+优质问答对
覆盖不同题型
人工审核标注
格式标准化

优先级：P3（微调准备）

🎨 六、用户体验需求

6.1 学生使用

UR-001: 提问体验

简洁的聊天界面
输入框和发送按钮
问题建议（可选）
历史记录查看

UR-002: 答案展示

答案内容展示
来源标注显示
答案格式化（标题、列表）
追问功能

UR-003: 使用指南

学生使用手册
常见问题FAQ
提问技巧说明

优先级：P1（用户体验）

6.2 教师管理

UR-004: 后台管理

UR-005: 内容管理

文档上传
知识库编辑
内容审核
版本管理

优先级：P1（管理功能）

🚀 七、实施计划

7.1 第一阶段：基础功能（Week 1-2）

目标： 完成核心问答功能

环境搭建（Docker + Dify + Ollama）
模型配置（Ollama连接）
知识库创建（1个测试知识库）
文档上传（1本测试课本）
基础工作流创建
Prompt基础配置
功能测试（10个问题）

交付物：

可用的问答系统
测试报告

7.2 第二阶段：优化提升（Week 3-4）

目标： 提升答案质量和检索准确性

交付物：

优化后的系统
性能测试报告

7.3 第三阶段：增强功能（Week 5-6）

目标： 添加增强功能和特殊处理

交付物：

完整功能系统
用户文档

7.4 第四阶段：持续优化（Week 7+）

目标： 数据收集和模型微调准备

交付物：

优化报告
微调模型（如需要）

📝 八、技术债务和风险

8.1 已知风险

风险1：检索不准确

影响： 高
应对： 优化分块策略、混合检索、元数据过滤

风险2：答案质量不稳定

影响： 高
应对： Prompt优化、Temperature调低、答案验证

风险3：响应速度慢

影响： 中
应对： 优化检索、减少Top K、考虑GPU加速

风险4：公式和图表处理

影响： 中
应对： 预处理脚本、人工标注

8.2 技术债务

代码文档完善
单元测试编写
错误处理完善
日志系统完善

✅ 九、验收标准

9.1 功能验收

9.2 性能验收

响应时间 < 6秒
检索准确率 > 80%
答案准确率 > 85%
系统稳定运行

9.3 用户体验验收

界面友好易用
答案清晰易懂
有使用指南
支持远程访问

📦 十、交付物清单

10.1 系统交付

可运行的系统（Docker Compose）
配置文件
部署文档
使用手册

10.2 文档交付

10.3 代码交付

预处理脚本
配置脚本
监控脚本
备份脚本

🎯 十一、优先级总结

P0 - 必须实现（核心功能）

知识库创建和管理
文档上传和处理
基础问答功能
答案来源标注
环境部署

P1 - 重要功能（性能优化）

Prompt优化
检索策略优化
答案质量控制
多轮对话优化
性能监控

P2 - 增强功能（可选）

公式处理
图表处理
混合检索
界面定制

P3 - 未来功能（长期）

模型微调
多模态支持
高级分析

📅 十二、时间估算

阶段	任务	时间	累计
Week 1-2	基础功能	20小时	20小时
Week 3-4	优化提升	20小时	40小时
Week 5-6	增强功能	20小时	60小时
Week 7+	持续优化	持续	-

总计： 60小时（约2个月，每周10小时）

🔗 十三、相关文档

技术方案对比文档 - 4种方案对比分析
实施方案文档 - 9个阶段详细步骤
难点与微调指南 - 5大难点和解决方案
本文档 - 完整需求清单

📝 更新记录

2026-01-17: 初始版本，

posted @ 2026-01-17 16:35 XiaoZhengTou 阅读(2) 评论(0) 收藏举报

刷新页面返回顶部

前端+AI的结合

教育RAG系统完整需求清单

教育RAG系统完整需求清单

📋 一、项目概述

1.1 项目目标

1.2 技术架构

1.3 项目目录结构

🎯 二、核心功能需求

2.1 知识库管理（Dify内置）

FR-001: 知识库创建

FR-002: 文档上传与处理

FR-003: 文档预处理优化

2.2 问答功能（Dify工作流）

FR-004: 基础问答

FR-005: 答案质量控制

FR-006: 多轮对话支持

2.3 检索优化

FR-007: 检索策略优化

FR-008: 检索准确性提升

2.4 特殊内容处理

FR-009: 公式处理

FR-010: 图表处理

🔧 三、技术实现需求

3.1 环境配置

TR-001: Docker环境

TR-002: Dify平台部署

TR-003: Ollama配置

3.2 模型配置

TR-004: 模型参数优化

TR-005: Prompt模板

TR-006: 模型微调（可选）

3.3 数据处理工具

TR-007: 文档预处理脚本

TR-008: 数据质量检查

📊 四、非功能需求

4.1 性能需求

NFR-001: 响应时间

NFR-002: 准确性

4.2 可用性需求

NFR-003: 访问方式

NFR-004: 用户界面

4.3 可维护性需求

NFR-005: 监控和日志

NFR-006: 备份和恢复

📚 五、数据需求

5.1 课本数据

DR-001: 课本准备

DR-002: 数据质量

5.2 训练数据（微调用）

DR-003: 问答对收集

🎨 六、用户体验需求

6.1 学生使用

UR-001: 提问体验

UR-002: 答案展示

UR-003: 使用指南

6.2 教师管理

UR-004: 后台管理

UR-005: 内容管理

🚀 七、实施计划

7.1 第一阶段：基础功能（Week 1-2）

7.2 第二阶段：优化提升（Week 3-4）

7.3 第三阶段：增强功能（Week 5-6）

7.4 第四阶段：持续优化（Week 7+）

📝 八、技术债务和风险

8.1 已知风险

风险1：检索不准确

风险2：答案质量不稳定

风险3：响应速度慢

风险4：公式和图表处理

8.2 技术债务

✅ 九、验收标准

9.1 功能验收

9.2 性能验收

9.3 用户体验验收

📦 十、交付物清单

10.1 系统交付

10.2 文档交付

10.3 代码交付

🎯 十一、优先级总结

P0 - 必须实现（核心功能）