团队项目第一次作业 团队展示+选题报告+需求分析
作业所属课程:https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringDoubleDegree2026
作业要求 :https://edu.cnblogs.com/campus/gdgy/SoftwareEngineeringDoubleDegree2026/homework/15663
团队名称:循序渐进组
团队成员学号-名字:3123001768-杨坤
一、团队展示
队名:循序渐进组
队名内涵:秉持稳扎稳打的成长理念,贴合软件工程迭代逻辑,在课堂学习与校园项目中步步深耕,结伴打磨技术、稳步共成长。
团队项目的:智眸项目依托AI大模型,为1700万视障群体打造无障碍生活助理,实现实景识别与触觉寻物,解决线下生活痛点,提升日常出行与使用的便捷性。
队员风采:
学号:3123001768
成员姓名:明林遇白
兴趣爱好:音乐
个人简介:目前属于编程新手,对代码的掌握还不是很熟练,正在努力学习和积累经验。
团队项目的愿景:未来结合开源硬件,形成更完善的物联网无障碍生态。以及扩展更多的功能,如智能识别文字,AI智能交流等,开发更便捷的硬件使用方式,在确保准确性的同时提升流畅度和智能性
二、选题报告
项目名称:智眸 —— 基于多模态智能体的视障人群“触觉雷达”与生活助理
软件形式:微信小程序(无需下载,调用手机硬件传感器)
智能体平台:Kimi+(视觉能力极佳)
真实调研痛点:全国有超1700万视障人士。现有的读屏软件只能解决线上“看手机”的问题,但线下生活(找水杯、找盲道、看药盒说明书)依然极其困难。他们需要一双“AI的眼睛”。
杀手级功能 :
“帮我找”触觉雷达:
视障人士看不见屏幕,怎么找东西?用户语音输入“帮我找我的红色保温杯”,将手机摄像头朝前方扫视。后台的“目标追踪智能体”持续分析画面,当杯子进入画面中心时,调用手机硬件的震动马达。距离越近(画面占比越大),手机震动频率越快
万物说明书(多模态智能体):
拿到未知的物品(如药盒、快递单),视障者只需拍一张照,后端的“场景解析智能体”不仅会识别物品,还会提取说明书内容,通过流式TTS(文本转语音)播报出来。
三、需求分析
- 项目标志
概念描述:一个简约的眼睛轮廓,瞳孔部分是代表大模型算力的发光神经网络节点。 整体线条圆润,主色调为高对比度的明黄色与深邃的夜空蓝(视障人群对高对比度色彩更敏感)
- 迭代记录
V0.1冲刺第一周 跑通最小视觉闭环 :完成小程序单次拍照,调用多模态大模型API,解析图片文本,并完成语音播报。 此阶段不做实时画面分析,不做寻物雷达,只验证多模态API的连通性。。
V1.0冲刺第二周 上线杀手级功能:增加“雷达寻物”模式。通过连续抽帧发送给Agent,结合手机原生震动API (wx.vibrateShort) 提供触觉反馈。
V1.5UI打磨与外设联动:完善手势防误触逻辑;将API接口开放给ESP32盲杖外设调用。 确保即使ESP32硬件联调失败,小程序本身也是一个完整的优秀作品。
- 系统思维导图(思维导图)
■ 感知交互层 (微信小程序前端)
环境感知:摄像头帧画面采集
意图捕获:麦克风阵列拾音 / 全局手势识别
多模态反馈:TTS语音流式播报 / 硬件马达高频震动反馈
■多智能体路由层 (Node.js/Python 后端 + Coze工作流)
意图识别Agent:判断用户是要“随便看看”还是“找特定物品”。
场景解析Agent (Kimi Vision):负责详细描述画面内容与提取文字。
目标检测Agent:判断目标物品是否在画面居中位置,并计算边界框大小(用于计算震动强度)。
■ 基础服务层
图片压缩与流控(防止Token耗尽)
用户偏好设置(语速调节)
- 核心类图
User:userId, speechSpeedPreference
SessionManager:sessionId, currentMode (DESCRIBE / FIND_RADAR)
AgentOrchestrator(智能体中枢): 包含方法 , routeIntent()callVisionAPI(image_base64)callOCR_API(image_base64)
HardwareController(前端硬件控制器): 包含方法 , .startCameraStream()playTTS(text)triggerVibration(intensityLevel)
- 功能描述与验收标准
核心用例:场景识别与朗读
功能描述:用户轻触屏幕上半部分,系统抓取当前摄像头画面,上传至场景解析Agent,提取结果后通过语音播放。
验收标准:
拍照完成后,系统能在 4秒内 开始语音播报(体现流式API输出的低延迟能力)。
对准常见药盒拍照,能准确提取并播报出“药品名称”和“用法用量”。
核心用例:寻物雷达反馈
功能描述:用户语音输入寻物目标,系统每秒截取一帧画面传给大模型。 当大模型判定目标在画面中时,驱动手机硬件震动。
验收标准:目标物品出现在手机画面正中央时,手机必须触发显著的物理震动。

浙公网安备 33010602011771号