SmartNote 需求分析文档

项目标志

null

迭代记录

版本号 迭代日期 更新内容概述 变更原因
V1.0 2025-10-29 初始版本,完成核心需求编写 项目启动

1. 引言

1.1 编写目的

本文档为面向学生群体的智能课堂笔记助手(SmartNote)的软件需求规格说明(SRS),旨在明确该软件的核心需求边界、功能定位及设计依据。文档将作为开发团队(含前端、后端、算法开发)的功能开发基准,测试团队的验收标准制定参考,同时为产品设计、项目管理提供统一的需求认知,最终确保交付的软件能解决学生 “听课与记笔记难兼顾、笔记混乱、重点模糊、复习低效” 四大核心痛点,实现 “听课专注、笔记省心、复习高效” 的学习闭环目标。

1.2 项目背景

结合对校内同学的观察与交流,不少同学反馈 “听课时需频繁低头记笔记,导致错过老师讲解细节”;部分同学课后整理一节课的笔记需 1-2 小时,且有同学提到自己的笔记因 “字迹乱、无重点” 沦为 “无效资料”;现有工具(如印象笔记、Notability、讯飞听见)只能满足 “录音” 或 “手写” 单一需求,难以覆盖 “从记录到复习” 的全流程场景,无法切实解决记笔记与高效复习的核心问题。

为填补这一空白,本项目计划基于 “语音识别 + 大语言模型” 双技术支撑,开发 SmartNote 智能课堂笔记助手,通过课堂录音自动转录、材料同步查看、笔记(含复习题)自动生成、笔记分类管理、基于笔记库的问答五大核心功能,解决学生学习过程中的认知负荷过载、知识关联断裂、缺少差异化学习方式等问题,助力学生从 “机械记笔记” 中解放,专注于内容理解与思考。

2. 总体描述

2.1 产品概述

SmartNote 是一款面向高校学生群体的智能课堂笔记助手,以 “语音识别 + 大语言模型” 为双技术核心,聚焦解决学生 “听课与记笔记难兼顾、笔记混乱、重点模糊、复习低效” 四大核心问题,打造 “录音转录→材料同步→笔记生成→分类管理→复习问答” 的全流程学习工具。

本产品定位为 “学生个性化学习伴侣”,而非单一笔记工具:通过自动化技术减少学生机械记笔记的时间成本,通过 AI 提炼与知识关联功能强化学习重点,最终帮助学生从 “被动记录” 转向 “主动理解”,实现 “听课专注、笔记省心、复习高效” 的学习闭环,适配课堂听课、课后复习、考前梳理等多场景使用需求,支持多终端(手机端、平板端、PC 端)同步,兼顾离线使用场景以保障隐私与无网络环境下的可用性。

2.2 产品功能

2.2.1 产品功能思维导图

null

2.2.2 产品功能模块概述

课堂录音自动转录

支持课堂场景下的实时录音转文字,通过 Whisper、科大讯飞等语音识别模型(准确率≥98%)实现语音转写,自动过滤课堂环境噪音(如翻书声、背景杂音);转写文本支持手动修改纠错(如专业术语修正),并标记录音对应文本段落(点击文本可回溯播放对应录音片段),解决 “听课时记录漏重点、课后回忆难” 的痛点。

材料同步查看

支持导入课堂相关材料(如 PPT、PDF 教材、老师课件),可与当前录音转录文本、笔记内容分屏同步查看;支持材料内关键词定位(如搜索 “第三章公式” 快速跳转至对应材料页面)。

笔记自动生成

基于大语言模型(Deepseek/Qwen),结合录音转录文本与提供的材料,自动生成结构化笔记:

  • 重点提炼:识别课堂核心知识点(如定义、公式、案例),用加粗 / 标色区分,生成 “课堂重点摘要”;
  • 复习题生成:根据知识点自动生成匹配的复习题(含选择题、简答题,支持自定义题量),并附参考答案;
  • 思维导图生成:根据授课内容自动生成思维导图;

笔记分类管理

支持按 “课程名称→章节→笔记” 三级分类存储笔记,同时提供自定义标签功能(如 “高频考点”“易错点”);支持全文搜索(可搜索笔记文本、录音转写内容,方便学生快速定位所需笔记,解决 “笔记堆积、查找低效” 的问题。

基于笔记库的问答

学生可针对个人笔记库内容发起提问(如 “解释笔记中提到的‘微积分基本定理’”“总结第二章重点考点”),大语言模型基于用户已存储的笔记、材料内容生成精准回答,避免通用问答工具与课堂内容脱节的问题;支持追问功能(如 “再举一个该定理的应用案例”),帮助学生深化对知识点的理解,提升复习效率。

2.3 用户特征

核心使用者:高校学生

高校学生(本科及以上)
身份属性 年龄 18-25 岁,专业划分明确,课程包含理论课、实验课、研讨会等多种类型,自主学习占比高。
设备习惯 大部分学生拥有PC设备,熟悉键盘输入与文件管理操作。
学习场景 课程专业性强,含大量专业术语与拓展内容;需整合课件、论文、课堂录音等多源资料复习。 课堂场景需静音操作(录音功能需后台运行、界面无噪音提示);课后复习场景需快速定位重点(依赖搜索与标签功能)。
功能需求偏好 专业术语精准识别、多格式材料导入(PDF/PPT)、笔记分类标签、知识关联查询;支持自定义排版与导出。
语音功能接受度高 超过半数学生习惯通过语音交互获取学习支持,对 “语音转文字”“语音提问” 等功能的使用率高于纯文字操作。

2.4 运行环境

2.4.1 硬件环境

设备类型 最低配置要求 推荐配置要求 适配说明
PC端 处理器:Intel i3-8100/AMD Ryzen 3 3200G 及以上;内存:8GB RAM;存储:100GB 可用空间 处理器:Intel i5-1135G7/AMD Ryzen 5 5500U 及以上;内存:16GB RAM;存储:256GB 可用空间 适配 Windows 10+ 系统,支持键盘快捷键操作、外接麦克风输入

2.4.2 软件环境

环境类型 具体要求
操作系统 Windows 10 21H1+
依赖软件 语音识别:支持 Whisper Lite、科大讯飞 SDK(在线);大语言模型:支持 Deepseek、qwen-embedding(本地部署);文件解析:支持 PDF 1.7+、PPTX 2016 + 格式
网络环境 在线模式:带宽≥1Mbps(语音实时转录)、≥2Mbps(AI 问答 / 复习题生成);

2.5 假设与依赖

2.5.1 核心假设

  1. 用户能力假设:假设用户具备基础设备操作能力(如点击、滑动),熟悉文件管理、账号登录等操作,无需额外引导。
  2. 环境假设:假设课堂环境噪音≤60 分贝(超出时需提示 “建议靠近声源”)
  3. 内容假设:假设用户导入的课堂材料(如 PPT)无版权冲突,产品不承担内容版权责任;假设录音内容为合法课堂场景,不涉及违规信息。

2.5.2 关键依赖

  1. 技术依赖:依赖 Whisper、科大讯飞提供的语音识别 SDK 授权
  2. 外部依赖:依赖设备厂商提供的系统权限(如录音权限、存储权限、后台运行权限),需在安装时明确告知用户权限用途

3. 具体需求

3.1 前端详细描述

前端概览

null

🔉 实时语音文本转录

🔎转录内容搜索

null

  • 转录文本内容搜索,快速定位关键词
  • 根据转录内容归纳关键词,推送为搜索推荐关键词

💽音频录制/播放

null

  • 暂停/开始播放

  • 10秒前进/回退

  • 倍速播放,快速复习/加速语速

  • 进度显示与拖动

    • 移动端进度条应当适应触碰,应使用宽进度条
    • 在长音频下,用户拖动进度条快速跳过和定位内容,而不是通过长时间快速下滑转录文本进行跳转
    • 自动生成分节、标题与概述,让用户快速切换分节
  • 播放所在位置

  • 进度标记重难点内容

📃摘要文本

null

  • 自动划分段落,快速跳过
  • 单击段落,自动跳转到音频对应位置
  • 音频识别错误修改

📖 材料无缝切换查看

页面

null

  • 多页面标签
  • 从本地文件导入文档
  • 文档查看
  • 查找内容
  • 放大/缩小、修改比例

3.2 后端详细描述

一、架构设计

  1. 技术栈选型
  • 核心框架:Spring Boot(简化 Java 后端开发,提供依赖管理、自动配置)

  • 数据存储:

    • 关系型数据库:H2 数据库(嵌入式,无需额外安装,适合个人本地使用)
    • 缓存:Redis(本地部署,用于缓存高频访问的笔记摘要、材料关键词等)
  • 智能体集成:

    • 语音识别:Whisper API(或科大讯飞语音识别 SDK)
    • 大语言模型:调用开源大模型 API(如 Llama、ChatGLM)或商业 API(如 OpenAI)用于笔记生成、问答
  • 文件处理:Apache POI(处理 PPT、PDF、WORD 材料的解析)、FFmpeg(可选,处理录音格式转换)

  • 部署环境:Windows 本地部署,后端以可执行 JAR 包形式运行

  1. 智能体协作架构

采用多智能体调度模式,通过LangChain4j协调各智能体任务:

  • 语音识别智能体:处理录音转录和文本分割
  • 笔记生成智能体:生成文本笔记、思维导图、习题
  • 问答智能体:基于笔记库回答问题
  • 材料解析智能体:解析导入的 PPT、PDF、WORD 材料

二、模块划分与功能描述

模块名称 核心职责 关联业务功能
录音处理模块 录音文件上传、存储、格式转换、调用语音识别智能体转录、转录文本分段与纠错 课堂录音自动转录
材料管理模块 材料(PPT/PDF/WORD)导入、存储、内容解析、关键词提取、分屏同步管理 材料同步查看
笔记生成模块 调用笔记生成智能体,生成文本笔记(三级重要性划分)、思维导图、习题 笔记自动生成
笔记管理模块 笔记分类存储(按课程 - 章节)、标签管理、全文检索 笔记分类管理
问答服务模块 调用问答智能体,基于笔记库进行知识问答、追问处理 基于笔记库的问答
智能体调度模块 管理各智能体的任务队列、资源分配、结果聚合 所有智能体驱动的功能

3.3 类图

null

3.4 非功能性需求

🚀性能 系统响应时间在可接受的范围内,资源占用控制在较低水平

🛡️安全性 支持接入本地大模型进行数据处理,不上传云端

💡易用性 界面设计简洁直观,用户易于学习和操作

3.5 验收标准

1. 课堂录音自动转录功能

验收项 验收要求 验证方式 合格标准
1.1 录音启动与停止 支持在 PC 端通过 “开始录音” 按钮启动、“停止录音” 按钮停止,且后台运行时不影响其他操作 手动操作测试:启动录音后切换至其他软件(如浏览器),30 秒后返回停止录音 1. 点击按钮后 1 秒内响应,无卡顿、崩溃;2. 后台运行期间录音不中断,生成完整音频文件
1.2 语音转文字准确率 课堂环境(噪音≤60 分贝,中文授课含少量专业术语)下,转录文本与录音内容匹配度 测试数据:选取 3 段不同课程(如计算机基础、高等数学、英语)的课堂录音(每段 5 分钟),人工核对转录文本 1. 通用中文词汇识别准确率≥98%;2. 专业术语(如 “微积分基本定理”“Java 多线程”)识别准确率≥95%;3. 单段录音转录错误(漏字、错字)不超过 3 处
1.3 转录文本纠错与音频回溯 支持手动修改转录文本错误,且点击文本段落可回溯播放对应录音片段 操作测试:1. 在转录文本中修改 3 处错误(如错字、漏字);2. 点击修改后的文本段落 1. 文本修改后即时保存,刷新页面不丢失;2. 点击文本后 2 秒内定位到对应录音片段并播放,音频与文本内容同步

2. 材料同步查看功能

验收项 验收要求 验证方式 合格标准
2.1 材料导入兼容性 支持导入 PDF(1.7 + 版本)、PPTX(2016 + 版本)格式的课堂材料 文件导入测试:分别导入 3 个不同大小(1MB、5MB、10MB)的 PDF 和 PPTX 文件 1. 10MB 以内文件导入时间≤10 秒,无报错;2. 导入后材料内容完整(文字、图片无缺失、错位)

3. 笔记自动生成功能

验收项 验收要求 验证方式 合格标准
3.1 结构化笔记生成 基于 5 分钟转录文本 + 对应 PPT 材料,自动生成含重点标注的笔记 功能测试:上传 1 组(转录文本 + PPT)数据,触发 “生成笔记” 功能 1. 笔记生成时间≤30 秒;2. 包含 “核心知识点”“案例解析” 模块,重点内容(定义、公式)用加粗 / 标色标注,标注准确率≥90%(人工核对与课堂重点匹配度)
3.2 复习题生成 支持根据笔记内容生成选择题(5 道)、简答题(3 道)及参考答案 功能测试:生成笔记后点击 “生成复习题”,人工核对题目与答案 1. 题目与笔记知识点匹配度 100%(无脱离内容的题目);2. 参考答案准确、完整(简答题无逻辑错误,选择题答案唯一且正确)
3.3 思维导图生成 自动生成符合课堂内容逻辑的思维导图(含一级标题、二级子标题) 功能测试:生成笔记后触发 “生成思维导图”,人工检查逻辑结构 1. 思维导图层级清晰(一级标题对应课程章节,二级标题对应核心知识点);2. 无知识点遗漏(覆盖笔记中 80% 以上核心内容)

4. 笔记分类管理功能

验收项 验收要求 验证方式 合格标准
4.1 三级分类存储 支持按 “课程名称→章节→笔记” 创建分类,并将笔记归类至对应目录 操作测试:1. 创建 “高等数学→第三章→微分方程” 分类;2. 将生成的笔记归入该目录 1. 分类创建步骤≤3 步(点击 “新建课程”→“新建章节”→“归类笔记”);2. 笔记归类后在对应目录下可直接查看,无归类错误
4.2 标签管理与全文搜索 支持为笔记添加自定义标签(如 “高频考点”),且支持搜索笔记文本、标签 操作测试:1. 为 3 篇笔记添加不同标签;2. 分别搜索标签、笔记内关键词 1. 标签添加后即时生效,支持单个笔记添加多个标签;2. 搜索结果 3 秒内展示,匹配准确率 100%(搜索 “高频考点” 仅显示带该标签的笔记,搜索关键词仅显示含该关键词的笔记)

5. 基于笔记库的问答功能

验收项 验收要求 验证方式 合格标准
5.1 基础问答准确性 针对笔记库内知识点提问(如 “解释微分方程的定义”),生成与笔记内容一致的回答 问答测试:提交 5 个不同类型的知识点问题,人工核对回答 1. 回答响应时间≤5 秒;2. 回答内容与笔记知识点匹配度≥95%
5.2 追问功能有效性 支持基于上一轮回答继续追问(如 “再举一个微分方程的应用案例”) 问答测试:完成 1 轮基础问答后发起 3 次追问 1. 追问响应无卡顿,能关联上一轮对话 context;2. 追问回答准确(如案例与微分方程知识点相关,无逻辑断裂)
posted @ 2025-11-07 10:24  byxxx  阅读(4)  评论(0)    收藏  举报