现代软件工程讲义 6 用户调研

[现代软件工程讲义 的一部分]

软件开发的过程, 就是 “用户最需要的东西” 在下面这一链条中传送,转换,实现,扭曲或丢失的过程。

用户最需要的 >  

    用户表达出来的 >

        软件团队能理解的 (老板/PM) + 团队的商业目标 >

            软件团队成员具体表达出来的 (PM 写 spec) >

                在各种约束条件下, 具体执行表达出来的 (dev 写代码) >

                    验证通过的 (Test) >

                        通过各种渠道告诉目标用户 (发布/推广) >

                            用户终于能用上了,但是他们不满意 >

软件业界有一个非常著名的秋千图表达了类似的情形:

image ( 这就是用户要的, 用户表达出来了么, 软件团队理解了么, 执行了么, 用户满意么? )

                image ( 也许公司擅长三层架构,  因此秋千也要三层的 )

                                image ( PM 写出了 spec )

                                                image  ( 开发人员根据 spec 写出了功能 )

                                                                image  ( 测试人员最后同意发布的软件 )

和用户想要的一样么? 不一样.  用户满意吗?  不满意,  那用户到底想要啥?  我们调查一下, 然后开始新的循环...

 

 

我们在开发软件的时候,总想知道用户到底想的是什么,  对各种功能的偏好是什么, 掌握这些信息,我们就可以按部就班地去满足用户的需求。 大家可以靠直觉,靠老板的命令,靠互联网上传来的各种信息,靠拷贝其它软件, 靠其它不靠谱的手段…  当然我们也可以靠一些经过实践证明行之有效的办法。 下面是几种用户调研 (User Study) 的方法:

1) 焦点小组 (Focus Group)

        image

    找到一群目标用户的代表来讨论用户想要什么, 用户对软件的评价等等。 焦点小组是很常用的调研方法,它也有一些弱点:

  •     一群人在一起,往往大家会出于讨好其他人的心理来发表意见,避免不一致的意见或冲突。
  •     讨论者对于他们不熟悉的事物 (例如颠覆式的创新) 不能表达有价值的想法 - 在汽车出现之前, 我们找一帮马车夫来畅想 “未来的交通工具”, 他们未必会贡献很有价值的想法。
  •     讨论的人群容易受到主持人有意或无意的影响。
  •     研究者往往从不同意见中挑选最符合自己想法的哪些,然后号称这就是大家的共识。

2) 深入面谈 (in-depth interview)

        image

    通过详细的面谈,广泛而深入地了解用户的背景,心理,需求等。这通常是一对一的采访。这个方法好是好, 就是费人费时。

3) 卡片分类 (Card Sorting)

        image

    列出所希望的软件有什么样的特点, 然后把这些特点归类。在微软亚洲研究院的时候,我们也曾做过“卡片排序” - 几个不同背景的人聚在一起, 想象新软件有什么特点, 能解决自己的什么痛苦, 或者有什么好玩的地方, 把这些特点都写在小卡片上, 一个主持人再把不同的卡片归类, 讨论, 进一步理清各种愿望的关系。 从某种意义上来说, 这些卡片就是量化了的焦点小组的意见,这些卡片经过归类/排序/定义等过程, 可以帮助我们更好地定义一个软件的信息架构,用户的工作流程,软件菜单结构,网站的浏览路径,各种内容的层次关系等。

4) 用户调查问卷 (User Survey)

        image

    给用户事先规定好的问题, 让用户回答。 我们在大街上碰到过不少,有时候你在浏览某个网站的时候,一个弹窗打断了你的思路,它请你回答几个问题。我们用户在回答这类问题的时候,是否心不在焉,乱点一气? 

    用户调查问卷看似容易, 其实大有门道,下面是一些常见问题:

    a) 问题定义不准确, 例如: 你用哪一个搜索引擎?  用户可能提供多个合理的答案: 最近使用的; 最喜欢的但是未必最经常使用的 (例如最喜欢的搜索引擎由于某种原因访问不了); 为某一个领域而使用的 (例如查图像或英语单词); 最近一周/一月/一年使用电搜索引擎也会有不同。

定义不准确的问题会让用户困惑,  我们也许能收集到很多答案,但仍然无法准确了解用户的想法。

    b) 使用了含糊的形容词、副词,来述时间、数量、频率、价格等: 最近、有时、经常、偶尔、很少、很多、相当多、很贵、很便宜。这些词语对不同用户和在不同的语境中有不同的意义。

    c) 让用户花额外的努力来回答问题:  请问你全家平均每人每年下载多少手机应用软件?  

    d) 问题带有引导性的倾向:  用户普遍认为, 搜索引擎A 收录了许多侵犯版权的资料而拒绝承认错误, 搜索引擎B 则赢得用户信任, 你会选择A 或B?

    e) 问题涉及用户隐私, 用户所在公司的情况等。

    用户调查问卷的问题可以有下面的这些方式,  大家可以更加具体情况使用:

    a) 全开放式问题:  例如: 你对手机上的日程管理软件的期望是: ________________  

        这种问题能让用户畅所欲言,但是比较难于整理和量化。

    b) 二项选择题: 用户只用回答 是/否 即可。  这类问题便于统计处理,分析也比较容易。但用户没有进一步阐明理由的机会,难以反映意见与程度的差别,了解的情况也不够深入。

        这个类型还有一个变种, 就是在两种选择对比中只能选其中之一。

    c) 多项选择题,大家在平时的考试中碰到多次。

    d) 顺位选择题: 您选择手机背单词软件的主要考虑因素是 (按照优先级填写 1, 2, 3, … ): _ 词汇量;  _ 能记录进度; _ 能定制单词表;  _ 能和PC 同步; _ 能支持4/6级等专门词库;  _ 能支持发音。

   

5) 用户日志研究 (User Diary Study)

        image

    要求用户记录自己日常工作或生活中和所用软件相关的行为, 供以后分析。 用户可以写像日记体的文字描述,  也可以每天填表 (例如跟踪自己每天饮食种类) 。 我个人理解,这时用户调查在时间上的延长。 这要求用户有很高的自律能力, 另外, 如何保护用户的隐私也是一个问题。

6) 民族志/人种学研究 (Ethnographic Study)

        image

    这个听起来非常学术的方法其实可以解释为 - 和目标用户同吃同住同劳动。  例如,与其坐在办公室里想象如何给老年人设计手机, 不如去和老年人生活几天,从生活中得到数据和体会。  这是一个论文例子

    人类学的用户调查听起来很高深, 其实未必 - 也许你一直生活在目标人群中, 只不过你对这些需求不够敏感罢了。 在《the social network》 这部电影中, Mark 的一个同学问他, 你知道某某女生是不是有男朋友?  Mark 沉思一会, 不理会这个同学,径直跑回宿舍,在 “thefacebook.com” 这个网站上实现 “你有朋友了么”这一功能。

    一些有想法的大学生们都在象牙塔里面指点江山, 激扬文字。  走到真实的世界中去, 你才会看到真实的需求, 下面是同学的顿悟:

http://www.cnblogs.com/meng-meng/archive/2011/11/14/2248589.html 

我平时接触的同学都是计算机专业的,我平时上的网站都geek味或hacker味十足。我几乎从来不用qq,我从来不上百度贴吧,我从来不打游戏,我不用360也不用任何杀毒软件,我不用hao123做主页。我没事看看google reader,我翻*墙上twitter和facebook,我常逛hacker news和quora,我乐于尝试国外的各种新鲜酷站,我从来没为软件或服务付过费。

原来我并不了解海量中国用户,原来真实的用户并不是我想象的那样。

以前我不理解为什么360的装机量那么大,现在我懂了:1.海量用户并不知道如何管理使用电脑,360那种傻瓜式的一键解决才是他们需要的,2.他们不想花钱,但是不会找什么“破解版”,“序列号”,“注册机”

以前我不理解为什么hao123这么“弱智”的网站能有这么大影响,现在我懂了,我爸爸可以通过它非常轻松的到新浪上看新闻,但如果你让他直接输入网址的话,他肯定会输入“xinlang.com”

以前我不理解为什么有那么多人愿意为了qq上的虚拟形象付钱,现在我懂了,我表姐她们只要上网肯定挂qq,而且女孩都爱漂亮爱虚荣,她们不在乎花点钱打扮打扮自己。

我看过一些非计算机系的同学的电脑,大多凌乱不堪,文件随处乱放,软件都是默认装在了C盘,安装的过程中还被捆绑了一堆流氓软件,各种软件都是开机启动,没有3分钟根本开不开机……

 

     这是2013年一篇对中国三线城市数字生活的描述 ( 作者潘越飞), 算不算人类学调查的一种呢?  

     这是2018 年一篇城市规划+设计专家对底层用户的调研,我们调研的时候, 是听中央来的专家的意见, 或者是提供资金的投资方的意见, 或者是当地zf 的意见, 还是那些默默无闻的民众的意见?  

 

7) 软件可用性研究 (Usability Study)

        image

    研究用户在使用软件的时候有哪些困难, 并如何改进软件,让软件更好用。 常用的方法是请用户来 微软有专门的 User Study Studio, 经常招募目标用户来做试验,我也曾实地参观过用户使用新版本的Outlook (我们在单向玻璃窗后面)。 更多的团队成员可以在事后看这些用户调研的录像。 调查人员通常让被试者完成一些任务,例如:

在Excel 中, 你想把一个表格中的行和列互换,你怎么能做到呢?

过年了你要想不少客户都发送内容相似的贺年邮件, 但是客户的名称和地址都各不相同, 你怎么用Word/Outlook 完成这个任务?

在Excel 软件中, 你在看一些大的表格的时候,要来回移动,但是这样表格的标题栏就看不到了,怎么样锁定标题栏呢?

我印象很深的一点是 - 用户在我们长长的菜单中幽幽暗暗反反复复中寻找某个功能,我们在玻璃窗后面替他着急… 我们的界面离 “平平淡淡从从容容才是真” 差太远了。

8) 眼动跟踪研究 (Eye Tracking)

        image

    你的软件展现了很多信息, 也有很多交互的控制, 怎样才能让用户容易找到看到你想让他们看到的信息,找到他们想使用的功能?  用户看网页上的众多内容通常是什么样的规律?  一些研究发现了 F 模式.

        image 用户通常浏览通栏标题, 然后目光沿着左侧下行, 再平行浏览下面的子标题。如果你有重要内容希望用户知道, 应该放在什么地方呢?

   

9) 纸上模型调研 (Paper Prototype)

        image

    如果要把软件做好了, 再去找用户做调查, 未免太费时,并且修改的成本很高。能否快速地取得用户的反馈?  这时不妨拿一些纸张模型, 让用户去使用, 得到反馈。 这种方法我没有做过,但是听上去不错。这也是用户参与式的设计 (Participatory Design)  的一个例子。另外,模型不一定要用纸, 用小木头块也行 - Palm Pilot 的创始人Jeff Hawkins 就用一块小木板做得和设计中的实物一样,他把它放在上衣口袋中, 时不时拿出来写写画画... 最后发布的 Palm Pilot 及其系列产品开创了 PDA 这样一个新行业。

 

10) A/B 测试 (A/B Testing)

        image

如果你已经有一些用户在使用你的产品,你想对用户界面做一些改进,但是又不知道到底有多少用户会喜欢新的界面,怎么办? 

例如你的网站是两列的布局,但是你很想试一下三列的布局方式, 就像题图一样。

例如你想用弹窗来促使用户对某个重要信息的作出反应, 是把弹窗放在右下角呢,还是放在屏幕中央?

 

这时候,你是找新的用户去做一对一的深入调研,或者跑到大街上去发调查问卷?  为什么不能让你现有的用户告诉你哪一种设计比较好呢? 这时候不妨考虑A/B Test.

A/B 测试看起来很简单:

    1) 决定试验哪两种不同的UI, 以及衡量标准, 数据收集流程, 试验运行时间, 人数

    2) 在技术上实现 A/B 测试 (通常在 5% – 10% 的用户上运行试验)

    3) 收集数据, 分析数据, 形成结论

 

Wired 杂志写了一篇关于A/B 测试的文章 – 用奥巴马竞选作为例子, 很值得一看。

很多互联网公司都在用A/B 测试, 研究员们也在用这个方法做研究,  你去访问它们的网站的时候, 有可能就是给它们做了试验, 看 Amazon 和 Microsoft 的例子 (论文).

 

A/B 测试当然也有弱点: 

    a) 运行成本随着时间的推移而变大,  增加网站运维的复杂度,对网站数据收集和数据挖掘的能力也是一个考验。

    b) 用户的情绪反映你看不到,你只看到交互的行为, 但是交互的行为不是用户的全部反馈。 (例如你看到用户点击屏幕中央的广告更多, 但是也许有更多的用户咒骂屏幕中央的广告)

    c) 要分清各种因素的关系,  例如,网站 “改版三列布局” 和 “用户在网站停留时间” 之间是下面的哪一种关系?

            - 不相关, 当前收集到的数据只是随机的

            - 相关, 但不是决定因素

            - 因果关系

    d) 用网站当前的用户做实验, 万一引起巨大的反感, 用户就真的流失了。

 

态度 : 行为    定性 : 定量

下图表示了这些方法在 (态度 : 行为    定性 : 定量) 上的分野:

image

 

用户有多种

我们说了这么多用户调研,  很多人假设评价软件的就是购买软件的,就是使用软件的,但是未必。看下面的例子:

a) 你要写一个中学生学习英语的软件,你找谁去做用户调研?

    中学生 - 最终用户
    家长 - 他们是要掏钱的人,他们不会每天都用软件,有些人都不太会英语,但是他们也有需求
    学校老师 - 他们是有巨大影响力的人,他们说不定立下一道规矩,我们班级就用某某软件! 

b) 你要写一个企业管理软件, 你要找谁去做用户调研?

 

做过头了会怎样?  

我们有这么多各式各样的工具, 互联网给我们带来了这么多用户和数据, 这是好事, 也有副作用。

世界上能访问用户数据, 并根据数据做分析和改进的公司, 大概 Google 是其中翘楚, 这种 data-centric 的做法做过了头, 也有悲剧发生:

Douglas Bowman 曾经是Google 的视觉设计主管, 2009 年的一天, 他受不了了:

Yes, it's true that a team at Google couldn't decide between two blues, so they're testing 41 shades between each blue to see which one performs better.        I had a recent debate over whether a border should be 3, 4, or 5 pixels wide, and was asked to prove my case. I can't operate in an environment like that. I've grown tired of debating such   minuscule design decisions...

当你的公司要你用数据来证明 41 种蓝色到底哪一种更好, 或者为一个边栏宽度是3, 4, 或5 而争执不休, 纷纷表示要拿数据来证明的时候, 你怎么办?

posted @ 2013-02-03 12:58 SoftwareTeacher 阅读(...) 评论(...) 编辑 收藏