37岁芯片大佬，跨界入主一家上市公司

39岁，他在上海干出百亿IPO

当李斌，拿起低价这把枪

一丰赴津，一场顺势而为的三方会师

立即打开APP

产品测试需要很多用户参与才能完成？不，研究表明最多5名就够了

2016-03-15

用户测试既昂贵又复杂，其实不然。

【猎云网（微信号：ilieyun）】3月15日报道（编译：Colin）

有些人认为适用性测试又昂贵又复杂，只有很少一部分预算充足时间充裕的网页设计项目才有进行用户测试的奢侈。其实不然。

过于复杂详细的适用性测试是对资源的浪费，实际上你只需要最多5名用户，让他们进行尽可能多轮的小型测试，就能得到你想要的结果。

在早期研究中，Tom Landauer和我发现在一次有n名用户参与的适用性测试中，发现问题的数量遵循这样的公式：

N (1-(1- L ) ⁿ )

其中N是存在的适用性问题的总数，L是测试单一用户所能发现的问题的比例，一般情况下L的值为31%，这是我们从大量研究中取得的平均值。当L=31%时，我们可以得到下面这条曲线：

Colin-【图片】Why You Only Need to Test with 5 Users

图片由猎云网（微信号：ilieyun）翻译编辑

最显而易见的是：没有用户，就不会发现问题。

当你对一名用户进行了测试，你会立刻获得很多信息，能发现将近三分之一的问题。从0到1这么一点差距，带来的结果是很惊人的。

当你测试第二名用户时，你会发现他做的事有很多和第一名用户是一样的，所以你得到的信息也和之前的有所重叠。而每个人都是不一样的，他一定也会进行一些第一名用户没有进行的操作，这样你也能得到一些新发现，但远没有第一名用户提供给你的多。

第三名用户的很多行为都是前两名用户进行过的，但也能给你提供一些新数据，只是没有前两名提供的多。

随着测试的用户越来越多，你获得的新信息会越来越少，因为他们可能一直都在进行同样的操作。完全不需要观察这么多次同样的操作，你就会迫不及待地想要去重新设计你的网站，来排除这些问题了。

在测试完第五名用户之后，你就是在浪费时间，因为接下来你很难获得什么新信息了。

反复设计

这条曲线清晰地显示出你至少需要测试15名用户来发现所有的适用性问题，那为什么我建议你们只测试5个人呢？

主要原因是：如果你把做用户测试的预算分散在许多轮小实验上，而不是把所有预算都砸在一轮特别复杂的研究上，得到的效果可能会更好。就算你真的有那个资金招募15名用户代表来参加测试，我也建议你把这笔钱分散在3轮研究上，每项研究让5名用户参与。

进行多轮测试是为了改进你的设计，而不仅仅是记录它的缺点。测试5名用户就能发现85%的问题，这时候你就已经很想重新设计，去修正这些问题了。

重新设计之后，你还需要再进行测试。虽然我说过新的设计应该解决之前出现的问题，但实际情况却并不会这么理想。既然没有人能设计出完美的用户界面，也就无法保证新的设计一定能解决之前的问题。第二轮测试会告诉你所做的修改管不管用，但即使之前的问题解决了，新的设计也会带来新的问题。

参与第二轮测试的5名用户会发现上一轮中遗留下来15%的问题中的一大部分，但仍然有2%的问题要等到第三轮才会被发现。

最终，第二轮测试能够更深入地挖掘网站基本结构中存在的适用性问题，对信息架构、任务流、用户需求的匹配情况等问题进行评估，在初期的研究中这些重要的问题很有可能不会被发现，因为界面层次的问题会阻碍用户深入探索你的网站。

因此，第二轮测试既确保了第一轮结果的质量，也提供了新的发现。在第二轮测试中，你一定会发现一些需要修改的新问题，但没有第一轮那么多。还是那句话，不是所有的修改都管用，而且扫除了用户界面上的障碍之后，用户会发现更深层次的问题。接下来你要进行第三轮测试。

和有15名用户参与的、一次性的复杂测试相比，三轮各有5名用户参与的测试能更好地改进最终用户体验。

为什么不只测试一个用户？

你可能会想，那还不如进行15轮测试，每轮只要1名用户。上面的曲线确实表明了我们能从第一名用户那里得到远多于后面一系列用户的信息，那我们为什么还要让后面那些用户进行测试呢？这里有两个原因：

第一，单一个体的行为具有欺骗性，他可能会有意无意地做出一些不具有代表性的行为，这样就可能对你产生误导。你需要3名用户来做出多样化的行为，从而了解哪些行为是很少见的，哪些是具有普适性的。

第二，用户测试的成本效益分析表明，根据测试类型的不同，参与测试的最佳人数从3到5名不等。准备和进行一项测试要花费一定的初始成本，多名参与者所带来的效益更高。

什么时候开始测试更多用户？

当你的网站有了一些高度分化的用户人群的时候，你就需要对更多的用户进行测试了。上面的那个公式只适用于会进行相似操作的同类人群。

比如说，如果你的网站用户既有儿童又有家长这两个具有完全不同行为模式的人群，那你就要分别对这两个人群进行测试，这一条也适用于将购买方和销售方联系在一起的系统。

但即便用户群之间有很大的差别，他们的行为也会有很大的相似性，毕竟他们都是人嘛。而且，很多适用性问题都与用户和网页的互动以及网站对用户行为的影响相关。

在测试不同的用户人群时，你不用像测试单组用户那样测试那么多对象。观察到的信息会有一部分重叠，这能确保即使每组人数较少结果也能相对准确。我建议如果测试两组用户，那么每组3到4人；如果测试3组及以上，那么每组3人。（最好保证每组至少有3人，这样才能保证这组人群的行为多样性。）

打开猎云网APP，查看原文

猎云网APP阅读全文

体验更加

微信扫码关注猎云网

猎云网原创文章未经授权转载必究，如需转载请联系官方微信号进行授权；
转载时须在文章头部明确注明出处、保留官方微信、作者和原文链接，如：转自猎云网(微信号: lieyunjingxuan )字样；
猎云网报道中所涉及的融资金额均由创业公司提供，仅供参考，猎云网不对真实性背书。
联系猎云，请加微信号：jinjilei

产品测试需要很多用户参与才能完成？不，研究表明最多5名就够了

图片由猎云网（微信号：ilieyun）翻译编辑

反复设计

为什么不只测试一个用户？

什么时候开始测试更多用户？

{{item.post_title}}

{{item.title}}

37岁芯片大佬，跨界入主一家上市公司

当李斌，拿起低价这把枪

高温催热夜宵经济超11万家餐饮商户在美团开启“24小时模式”

产品测试需要很多用户参与才能完成？不，研究表明最多5名就够了

图片由猎云网（微信号：ilieyun）翻译编辑

反复设计

为什么不只测试一个用户？

什么时候开始测试更多用户？

{{item.post_title}}

{{item.title}}

37岁芯片大佬，跨界入主一家上市公司

当李斌，拿起低价这把枪

高温催热夜宵经济 超11万家餐饮商户在美团开启“24小时模式”

高温催热夜宵经济超11万家餐饮商户在美团开启“24小时模式”