该实验为部分需求分析与原型设计整合。完整的需求分析内容见实验3
成员
230809010118---张艳
230809010119---田吉琼
230809010127---马秀兰
一、NABCD 模型分析
1) N (Need 需求) -- 分析人:张艳
--简介
本项目是一款基于AI视觉的实时手势识别控制系统,核心是通过电脑摄像头捕捉用户的手势动作,完成实时识别,替代传统键鼠/快捷键,实现对电脑多场景功能的无接触控制,打造更便捷、更具科技感的人机交互体验。
系统核心功能覆盖四大场景:
- 系统控制:电脑音量调节、屏幕亮度调整
- 办公软件:Word文字放大/缩小、PPT上下翻页
- 多媒体控制:视频播放/暂停、快进/快退、开关
- 扩展功能:鼠标隔空操作、截图、快捷键自定义
![]()
--用户烦恼
当前电脑交互存在诸多痛点,传统键鼠操作无法满足多样化场景需求:办公/演讲场景、生活/娱乐场景、现有方案缺陷。
--应需求而生
正因为用户的这些烦恼,我们的实时手势识别控制系统应时代需求而生了!我们的目的是:
- 为用户提供零成本、无接触的电脑交互方案,仅用电脑自带摄像头即可实现,无需额外硬件;
- 覆盖系统、办公、多媒体全场景,一个工具满足多种需求,解放双手,提升效率;
- 打造开源可扩展的技术方案,适合学生/开发者二次开发,适配课程设计、毕业设计等学习场景;
- 实现低延迟、高准确率的实时识别,满足日常办公、娱乐的流畅使用需求。
2) A (Approach 做法) -- 分析人:田吉琼
--技术方案
本项目基于VS Code开发,采用轻量、高效的技术栈,实现端到端的手势识别控制:
- 核心算法:
Python + OpenCV(摄像头采集+图像处理) + MediaPipe(AI手势关键点检测,轻量高效,适合实时识别) - 系统控制:
PyAutoGUI(模拟键鼠操作,控制Office/视频) + pycaw(Windows系统音量控制) + screen-brightness-control(屏幕亮度控制) - 开发环境:
VS Code + Python ,搭配Python、Pylance插件,实现代码编写、调试、运行全流程 - 界面开发:
PyQt5/Tkinter,做可视化操作界面,展示实时识别画面、手势映射列表
--开发步骤
项目分阶段迭代开发,确保功能稳定、体验流畅:
- 第一阶段:核心功能开发:
完成摄像头实时采集、MediaPipe手势关键点检测、基础手势映射(PPT翻页、音量调节),实现最小可用版本。 - 第二阶段:功能扩展优化:
添加Word缩放、视频控制、亮度调节等全场景功能,优化识别延迟、添加防抖逻辑,提升识别准确率。 - 第三阶段:界面与部署:
开发可视化操作界面,支持用户自定义手势映射,方便用户直接使用。 - 第四阶段:迭代升级:
根据用户反馈,添加更多手势、扩展功能。
3) B (Benefit 好处) -- 分析人:马秀兰
本手势识别控制系统能为用户/开发者带来以下核心好处:
- 极致便捷的交互体验
- 低成本高适配
- 开源可定制
- 多场景全覆盖
- 学习与实践价值
- 无障碍适配
4) C (Competitors 竞争) -- 分析人:张艳
--本项目核心竞争力
对于我们这个项目所做的实时手势识别控制系统,相比竞品有明显优势,市场仍有很大的竞争空间:
- 全场景整合
- 轻量无硬件
- 开源可扩展
- 高实时性
- 学生友好
5) D (Delivery 推广) -- 分析人:田吉琼
--简介
一个产品从推出到被大众发现再到用户群体的形成,这个过程被称为产品推广。由于作为学生能力资源有限,我们无法扩展大部分推广渠道,所以我只从资源分析与推广方案两方面进行分析。
--资源分析
- 资金:基本无,除非得到学校方面的支持,而找投资人,在产品没有形成一定人气的情况下是不怎么可行的。
- 人力:只有团队成员,并且只能利用课余时间,所以在人力这方面也是匮乏的。
- 政策:如果得到学校支持会得到许多扶持,无论是资金还是技术指导,可依托学校实验室、计算机学院课程项目获取资源。
--潜在用户(10名试用用户)
本项目已确定10名同班同学作为潜在用户,均同意在项目完成后试用产品并提供反馈,名单如下:
才吉 彭程 湛英文 多杰措 李洪存 邢译霖 侯胜男 高丽娜 费亚林 冶秀芳
以上用户均为计算机专业学生,日常有PPT汇报、办公操作、多媒体使用需求,对手势控制工具存在实际使用场景,符合产品目标用户定位。
--推广方案
- 校园推广(核心初始用户)
- 开源社区推广(开发者用户)
- 内容营销(破圈推广)
- 合作推广(长期)
二、推广视频(哔哩哔哩平台)负责人 -- 马秀兰
看视频请点击下面链接
【手势交互-哔哩哔哩】 https://b23.tv/ehmyCsH
以下为视频截图:

三、原型设计
原型设计要采用专门的原型设计工具参考工具:
移动应用原型与线框工具-墨刀
一款简洁高效的原型图设计工具-mockplus
采用工具完成了基于摄像头的实时手势识别控制系统的交互原型设计,完整呈现了系统的界面布局、核心功能与手势交互逻辑,为后续开发提供了清晰的指引。本系统预设了多组手势映射,覆盖系统控制、办公软件、多媒体娱乐三大场景,实现无接触电脑操作。
--
1. 系统主界面
核心定位:首页与总控入口,是用户进入系统后看到的第一个界面。
界面设计:整体采用简约轻量风格,顶部居中为系统名称「智能手势操控系统」,中间是醒目的手势图标,直观体现产品主题;底部横向排列四大核心功能入口:
「全局控制」:进入系统全局手势控制模式,实现音量、窗口、播放等通用操作;
「应用控制」:进入适配 WPS、浏览器等特定软件的手势控制模式;
「手势校准」:用于用户调整摄像头角度、校准识别精度,提升识别准确率;
「手势库」:查看、管理系统预设与用户自定义的所有手势映射方案。
设计亮点:布局简洁直观,功能入口清晰明确,降低用户的使用学习成本,同时传递出科技、易用的产品定位。
2. 全局控制手势交互原型
系统音量控制
- 手势1:拇指+食指开合 → 调节系统音量大小
- 手势2:竖比心手势 → 一键静音/取消静音
窗口与桌面控制
- 手势3:五指张开上滑 → 当前窗口最大化
- 手势4:五指合拢下滑 → 当前窗口最小化
- 手势5:左右挥手 → 切换桌面窗口
播放与电源控制
- 手势6:OK手势 → 系统播放/暂停(全局通用)
- 手势7:手掌向左/右滑动 → 上一曲/下一曲
- 手势8:握拳保持3秒 → 调出系统休眠选项
![]()
核心定位:展示系统通用场景的手势交互逻辑,覆盖系统控制、多媒体播放等高频操作。
界面设计:左侧为手势动作示意图,以图文结合的方式直观展示每个手势的动作形态;右侧为对应操作说明,清晰标注手势与系统功能的映射关系。
设计亮点:采用「示意图 + 文字说明」的形式,清晰呈现手势的动作标准与使用场景,为用户提供直观的操作指引,也为后续开发提供了明确的交互逻辑参考。
3. 办公软件交互原型(WPS/Word/PPT)
针对日常办公场景,设计了适配文档与演示软件的手势操作:
- 单指上滑:文档上翻页
- 单指下滑:文档下翻页
- 双指捏合:缩小页面视图
- 双指张开:放大页面视图
- 手势点赞:一键保存文档
![]()
界面设计:采用线框风示意图,还原办公软件的操作界面,搭配手部动作示意,清晰展示适配办公场景的手势操作。
设计亮点:贴合办公场景的实际使用需求,将手势交互与办公软件的高频操作深度绑定,提升用户在无接触场景下的办公效率。
4. 娱乐与网页交互原型
适配视频播放器、浏览器等娱乐场景,提升无接触操作体验:
- 剪刀手势:网页后退
- 手掌下压:视频倍速减速
- 手掌上抬:视频倍速加速
![]()
界面设计:以线框风示意图展示娱乐场景的手势操作逻辑。
设计亮点:针对娱乐场景的高频操作设计手势,适配用户在观看视频时的无接触操作需求,提升产品的场景适配性。
5. 手势设置与录入界面
界面设计:采用分区布局,分为三大模块:
左侧录入区:摄像头实时画面,用于采集用户做出的新手势动作;
右侧设置区:包含手势名称输入框、「录入」「重置」按钮,支持用户自定义手势名称并完成录入;
下方手势库区:展示已录入的所有手势,支持用户查看、管理自定义手势。
设计亮点:为用户提供了高度灵活的个性化设置入口,打破了系统预设手势的限制,让用户可以根据自身需求拓展手势功能,提升产品的可定制性与适配性
小组商讨图片
原型设计总结
---本次实验以基于电脑摄像头的实时手势识别控制系统为对象,完成了从需求梳理到原型设计的完整交互设计流程。实验过程中,我们以用户为中心,围绕系统控制、办公软件、多媒体娱乐三大核心场景,完成了五张关键原型图的设计,完整呈现了系统的界面布局、功能模块与手势交互逻辑。
---通过本次原型设计,我们不仅梳理了系统的核心功能与用户使用流程,也进一步明确了后续开发的关键细节与优化方向。原型设计的过程让我们直观验证了手势交互的可行性,提前识别并规避了界面布局、功能入口等潜在的交互问题,为后续的代码实现提供了清晰的指引。
---同时,本次实验也让我们深入理解了原型设计在产品开发中的核心作用 —— 它不仅是沟通需求、对齐目标的工具,更是验证交互逻辑、降低开发成本的关键环节。通过摹客 RP 工具的使用,我们也掌握了快速搭建桌面端原型、添加交互跳转的方法,提升了交互设计与用户体验分析的能力。
---本次实验的成果,为项目后续的开发迭代奠定了坚实基础,也让我们更加深刻地体会到,优秀的产品设计需要以用户需求为导向,通过不断打磨交互细节,打造真正易用、高效的人机交互体验。




浙公网安备 33010602011771号