SmartNote 需求分析文档
项目标志

迭代记录
| 版本号 | 迭代日期 | 更新内容概述 | 变更原因 |
|---|---|---|---|
| V1.0 | 2025-10-29 | 初始版本,完成核心需求编写 | 项目启动 |
1. 引言
1.1 编写目的
本文档为面向学生群体的智能课堂笔记助手(SmartNote)的软件需求规格说明(SRS),旨在明确该软件的核心需求边界、功能定位及设计依据。文档将作为开发团队(含前端、后端、算法开发)的功能开发基准,测试团队的验收标准制定参考,同时为产品设计、项目管理提供统一的需求认知,最终确保交付的软件能解决学生 “听课与记笔记难兼顾、笔记混乱、重点模糊、复习低效” 四大核心痛点,实现 “听课专注、笔记省心、复习高效” 的学习闭环目标。
1.2 项目背景
结合对校内同学的观察与交流,不少同学反馈 “听课时需频繁低头记笔记,导致错过老师讲解细节”;部分同学课后整理一节课的笔记需 1-2 小时,且有同学提到自己的笔记因 “字迹乱、无重点” 沦为 “无效资料”;现有工具(如印象笔记、Notability、讯飞听见)只能满足 “录音” 或 “手写” 单一需求,难以覆盖 “从记录到复习” 的全流程场景,无法切实解决记笔记与高效复习的核心问题。
为填补这一空白,本项目计划基于 “语音识别 + 大语言模型” 双技术支撑,开发 SmartNote 智能课堂笔记助手,通过课堂录音自动转录、材料同步查看、笔记(含复习题)自动生成、笔记分类管理、基于笔记库的问答五大核心功能,解决学生学习过程中的认知负荷过载、知识关联断裂、缺少差异化学习方式等问题,助力学生从 “机械记笔记” 中解放,专注于内容理解与思考。
2. 总体描述
2.1 产品概述
SmartNote 是一款面向高校学生群体的智能课堂笔记助手,以 “语音识别 + 大语言模型” 为双技术核心,聚焦解决学生 “听课与记笔记难兼顾、笔记混乱、重点模糊、复习低效” 四大核心问题,打造 “录音转录→材料同步→笔记生成→分类管理→复习问答” 的全流程学习工具。
本产品定位为 “学生个性化学习伴侣”,而非单一笔记工具:通过自动化技术减少学生机械记笔记的时间成本,通过 AI 提炼与知识关联功能强化学习重点,最终帮助学生从 “被动记录” 转向 “主动理解”,实现 “听课专注、笔记省心、复习高效” 的学习闭环,适配课堂听课、课后复习、考前梳理等多场景使用需求,支持多终端(手机端、平板端、PC 端)同步,兼顾离线使用场景以保障隐私与无网络环境下的可用性。
2.2 产品功能
2.2.1 产品功能思维导图

2.2.2 产品功能模块概述
课堂录音自动转录
支持课堂场景下的实时录音转文字,通过 Whisper、科大讯飞等语音识别模型(准确率≥98%)实现语音转写,自动过滤课堂环境噪音(如翻书声、背景杂音);转写文本支持手动修改纠错(如专业术语修正),并标记录音对应文本段落(点击文本可回溯播放对应录音片段),解决 “听课时记录漏重点、课后回忆难” 的痛点。
材料同步查看
支持导入课堂相关材料(如 PPT、PDF 教材、老师课件),可与当前录音转录文本、笔记内容分屏同步查看;支持材料内关键词定位(如搜索 “第三章公式” 快速跳转至对应材料页面)。
笔记自动生成
基于大语言模型(Deepseek/Qwen),结合录音转录文本与提供的材料,自动生成结构化笔记:
- 重点提炼:识别课堂核心知识点(如定义、公式、案例),用加粗 / 标色区分,生成 “课堂重点摘要”;
- 复习题生成:根据知识点自动生成匹配的复习题(含选择题、简答题,支持自定义题量),并附参考答案;
- 思维导图生成:根据授课内容自动生成思维导图;
笔记分类管理
支持按 “课程名称→章节→笔记” 三级分类存储笔记,同时提供自定义标签功能(如 “高频考点”“易错点”);支持全文搜索(可搜索笔记文本、录音转写内容,方便学生快速定位所需笔记,解决 “笔记堆积、查找低效” 的问题。
基于笔记库的问答
学生可针对个人笔记库内容发起提问(如 “解释笔记中提到的‘微积分基本定理’”“总结第二章重点考点”),大语言模型基于用户已存储的笔记、材料内容生成精准回答,避免通用问答工具与课堂内容脱节的问题;支持追问功能(如 “再举一个该定理的应用案例”),帮助学生深化对知识点的理解,提升复习效率。
2.3 用户特征
核心使用者:高校学生
| 高校学生(本科及以上) | |
|---|---|
| 身份属性 | 年龄 18-25 岁,专业划分明确,课程包含理论课、实验课、研讨会等多种类型,自主学习占比高。 |
| 设备习惯 | 大部分学生拥有PC设备,熟悉键盘输入与文件管理操作。 |
| 学习场景 | 课程专业性强,含大量专业术语与拓展内容;需整合课件、论文、课堂录音等多源资料复习。 课堂场景需静音操作(录音功能需后台运行、界面无噪音提示);课后复习场景需快速定位重点(依赖搜索与标签功能)。 |
| 功能需求偏好 | 专业术语精准识别、多格式材料导入(PDF/PPT)、笔记分类标签、知识关联查询;支持自定义排版与导出。 |
| 语音功能接受度高 | 超过半数学生习惯通过语音交互获取学习支持,对 “语音转文字”“语音提问” 等功能的使用率高于纯文字操作。 |
2.4 运行环境
2.4.1 硬件环境
| 设备类型 | 最低配置要求 | 推荐配置要求 | 适配说明 |
|---|---|---|---|
| PC端 | 处理器:Intel i3-8100/AMD Ryzen 3 3200G 及以上;内存:8GB RAM;存储:100GB 可用空间 | 处理器:Intel i5-1135G7/AMD Ryzen 5 5500U 及以上;内存:16GB RAM;存储:256GB 可用空间 | 适配 Windows 10+ 系统,支持键盘快捷键操作、外接麦克风输入 |
2.4.2 软件环境
| 环境类型 | 具体要求 |
|---|---|
| 操作系统 | Windows 10 21H1+ |
| 依赖软件 | 语音识别:支持 Whisper Lite、科大讯飞 SDK(在线);大语言模型:支持 Deepseek、qwen-embedding(本地部署);文件解析:支持 PDF 1.7+、PPTX 2016 + 格式 |
| 网络环境 | 在线模式:带宽≥1Mbps(语音实时转录)、≥2Mbps(AI 问答 / 复习题生成); |
2.5 假设与依赖
2.5.1 核心假设
- 用户能力假设:假设用户具备基础设备操作能力(如点击、滑动),熟悉文件管理、账号登录等操作,无需额外引导。
- 环境假设:假设课堂环境噪音≤60 分贝(超出时需提示 “建议靠近声源”)
- 内容假设:假设用户导入的课堂材料(如 PPT)无版权冲突,产品不承担内容版权责任;假设录音内容为合法课堂场景,不涉及违规信息。
2.5.2 关键依赖
- 技术依赖:依赖 Whisper、科大讯飞提供的语音识别 SDK 授权
- 外部依赖:依赖设备厂商提供的系统权限(如录音权限、存储权限、后台运行权限),需在安装时明确告知用户权限用途
3. 具体需求
3.1 前端详细描述
前端概览

🔉 实时语音文本转录
🔎转录内容搜索

- 转录文本内容搜索,快速定位关键词
- 根据转录内容归纳关键词,推送为搜索推荐关键词
💽音频录制/播放

-
暂停/开始播放
-
10秒前进/回退
-
倍速播放,快速复习/加速语速
-
进度显示与拖动
-
- 移动端进度条应当适应触碰,应使用宽进度条
- 在长音频下,用户拖动进度条快速跳过和定位内容,而不是通过长时间快速下滑转录文本进行跳转
- 自动生成分节、标题与概述,让用户快速切换分节
-
播放所在位置
-
进度标记重难点内容
📃摘要文本

- 自动划分段落,快速跳过
- 单击段落,自动跳转到音频对应位置
- 音频识别错误修改
📖 材料无缝切换查看
页面

- 多页面标签
- 从本地文件导入文档
- 文档查看
- 查找内容
- 放大/缩小、修改比例
3.2 后端详细描述
一、架构设计
- 技术栈选型
-
核心框架:Spring Boot(简化 Java 后端开发,提供依赖管理、自动配置)
-
数据存储:
-
- 关系型数据库:H2 数据库(嵌入式,无需额外安装,适合个人本地使用)
- 缓存:Redis(本地部署,用于缓存高频访问的笔记摘要、材料关键词等)
-
智能体集成:
-
- 语音识别:Whisper API(或科大讯飞语音识别 SDK)
- 大语言模型:调用开源大模型 API(如 Llama、ChatGLM)或商业 API(如 OpenAI)用于笔记生成、问答
-
文件处理:Apache POI(处理 PPT、PDF、WORD 材料的解析)、FFmpeg(可选,处理录音格式转换)
-
部署环境:Windows 本地部署,后端以可执行 JAR 包形式运行
- 智能体协作架构
采用多智能体调度模式,通过LangChain4j协调各智能体任务:
- 语音识别智能体:处理录音转录和文本分割
- 笔记生成智能体:生成文本笔记、思维导图、习题
- 问答智能体:基于笔记库回答问题
- 材料解析智能体:解析导入的 PPT、PDF、WORD 材料
二、模块划分与功能描述
| 模块名称 | 核心职责 | 关联业务功能 |
|---|---|---|
| 录音处理模块 | 录音文件上传、存储、格式转换、调用语音识别智能体转录、转录文本分段与纠错 | 课堂录音自动转录 |
| 材料管理模块 | 材料(PPT/PDF/WORD)导入、存储、内容解析、关键词提取、分屏同步管理 | 材料同步查看 |
| 笔记生成模块 | 调用笔记生成智能体,生成文本笔记(三级重要性划分)、思维导图、习题 | 笔记自动生成 |
| 笔记管理模块 | 笔记分类存储(按课程 - 章节)、标签管理、全文检索 | 笔记分类管理 |
| 问答服务模块 | 调用问答智能体,基于笔记库进行知识问答、追问处理 | 基于笔记库的问答 |
| 智能体调度模块 | 管理各智能体的任务队列、资源分配、结果聚合 | 所有智能体驱动的功能 |
3.3 类图

3.4 非功能性需求
🚀性能 系统响应时间在可接受的范围内,资源占用控制在较低水平
🛡️安全性 支持接入本地大模型进行数据处理,不上传云端
💡易用性 界面设计简洁直观,用户易于学习和操作
3.5 验收标准
1. 课堂录音自动转录功能
| 验收项 | 验收要求 | 验证方式 | 合格标准 |
|---|---|---|---|
| 1.1 录音启动与停止 | 支持在 PC 端通过 “开始录音” 按钮启动、“停止录音” 按钮停止,且后台运行时不影响其他操作 | 手动操作测试:启动录音后切换至其他软件(如浏览器),30 秒后返回停止录音 | 1. 点击按钮后 1 秒内响应,无卡顿、崩溃;2. 后台运行期间录音不中断,生成完整音频文件 |
| 1.2 语音转文字准确率 | 课堂环境(噪音≤60 分贝,中文授课含少量专业术语)下,转录文本与录音内容匹配度 | 测试数据:选取 3 段不同课程(如计算机基础、高等数学、英语)的课堂录音(每段 5 分钟),人工核对转录文本 | 1. 通用中文词汇识别准确率≥98%;2. 专业术语(如 “微积分基本定理”“Java 多线程”)识别准确率≥95%;3. 单段录音转录错误(漏字、错字)不超过 3 处 |
| 1.3 转录文本纠错与音频回溯 | 支持手动修改转录文本错误,且点击文本段落可回溯播放对应录音片段 | 操作测试:1. 在转录文本中修改 3 处错误(如错字、漏字);2. 点击修改后的文本段落 | 1. 文本修改后即时保存,刷新页面不丢失;2. 点击文本后 2 秒内定位到对应录音片段并播放,音频与文本内容同步 |
2. 材料同步查看功能
| 验收项 | 验收要求 | 验证方式 | 合格标准 |
|---|---|---|---|
| 2.1 材料导入兼容性 | 支持导入 PDF(1.7 + 版本)、PPTX(2016 + 版本)格式的课堂材料 | 文件导入测试:分别导入 3 个不同大小(1MB、5MB、10MB)的 PDF 和 PPTX 文件 | 1. 10MB 以内文件导入时间≤10 秒,无报错;2. 导入后材料内容完整(文字、图片无缺失、错位) |
3. 笔记自动生成功能
| 验收项 | 验收要求 | 验证方式 | 合格标准 |
|---|---|---|---|
| 3.1 结构化笔记生成 | 基于 5 分钟转录文本 + 对应 PPT 材料,自动生成含重点标注的笔记 | 功能测试:上传 1 组(转录文本 + PPT)数据,触发 “生成笔记” 功能 | 1. 笔记生成时间≤30 秒;2. 包含 “核心知识点”“案例解析” 模块,重点内容(定义、公式)用加粗 / 标色标注,标注准确率≥90%(人工核对与课堂重点匹配度) |
| 3.2 复习题生成 | 支持根据笔记内容生成选择题(5 道)、简答题(3 道)及参考答案 | 功能测试:生成笔记后点击 “生成复习题”,人工核对题目与答案 | 1. 题目与笔记知识点匹配度 100%(无脱离内容的题目);2. 参考答案准确、完整(简答题无逻辑错误,选择题答案唯一且正确) |
| 3.3 思维导图生成 | 自动生成符合课堂内容逻辑的思维导图(含一级标题、二级子标题) | 功能测试:生成笔记后触发 “生成思维导图”,人工检查逻辑结构 | 1. 思维导图层级清晰(一级标题对应课程章节,二级标题对应核心知识点);2. 无知识点遗漏(覆盖笔记中 80% 以上核心内容) |
4. 笔记分类管理功能
| 验收项 | 验收要求 | 验证方式 | 合格标准 |
|---|---|---|---|
| 4.1 三级分类存储 | 支持按 “课程名称→章节→笔记” 创建分类,并将笔记归类至对应目录 | 操作测试:1. 创建 “高等数学→第三章→微分方程” 分类;2. 将生成的笔记归入该目录 | 1. 分类创建步骤≤3 步(点击 “新建课程”→“新建章节”→“归类笔记”);2. 笔记归类后在对应目录下可直接查看,无归类错误 |
| 4.2 标签管理与全文搜索 | 支持为笔记添加自定义标签(如 “高频考点”),且支持搜索笔记文本、标签 | 操作测试:1. 为 3 篇笔记添加不同标签;2. 分别搜索标签、笔记内关键词 | 1. 标签添加后即时生效,支持单个笔记添加多个标签;2. 搜索结果 3 秒内展示,匹配准确率 100%(搜索 “高频考点” 仅显示带该标签的笔记,搜索关键词仅显示含该关键词的笔记) |
5. 基于笔记库的问答功能
| 验收项 | 验收要求 | 验证方式 | 合格标准 |
|---|---|---|---|
| 5.1 基础问答准确性 | 针对笔记库内知识点提问(如 “解释微分方程的定义”),生成与笔记内容一致的回答 | 问答测试:提交 5 个不同类型的知识点问题,人工核对回答 | 1. 回答响应时间≤5 秒;2. 回答内容与笔记知识点匹配度≥95% |
| 5.2 追问功能有效性 | 支持基于上一轮回答继续追问(如 “再举一个微分方程的应用案例”) | 问答测试:完成 1 轮基础问答后发起 3 次追问 | 1. 追问响应无卡顿,能关联上一轮对话 context;2. 追问回答准确(如案例与微分方程知识点相关,无逻辑断裂) |

浙公网安备 33010602011771号