超全!体验度量理论2021版
本文是对《体验度量理论 2019》的更新,隔了两年再看,当初的总结有所欠缺,不够全面,于是今年再更新一份。
体验是什么?
我们现在所说的体验,大部分都是用户体验 User Experience,这一概念诞生于数字时代,由美国学者唐•诺曼 Don Norman 提出。
在他创建的尼尔森诺曼集团 Nielsen Norman Group 中,定义的 UX 是:
用户体验是用户与企业、服务和产品之间的所有交互。 User experience includes all the aspects of the interaction between the end-user with the company, its services, and its products.
Wikipedia 定义的 UX 是:
用户体验是指一个人使用一个特定产品或系统或服务时的行为、情绪与态度。包括人机交互与拥有产品时的操作面向、体验面向、情感面向、意义面向、与价值面向;还包含用户对于系统的功能、易用、效率的感受,因此用户体验在本质上可以视为一个人对于系统的主观感受与主观想法。 User experience as "a person's perceptions and responses that result from the use or anticipated use of a product, system or service". User experience includes all the users' emotions, beliefs, preferences, perceptions, physical and psychological responses, behaviors and accomplishments that occur before, during, and after use.
Oracle 定义的 UX 是:
用户体验反映企业在客户购买旅程的每一个节点上与用户之间的交互情况,涵盖从营销、销售到客户服务的整个周期。它基本上就是用户与您的品牌之间所有交互的总和。客户体验并不仅仅只是一系列行动。它还侧重于感受。您的客户或潜在客户对您的品牌有什么样的感受?在每一个客户接触点,您都可以改善或破坏客户对您品牌的感受。 Customer experience (CX) refers to how a business engages with its customers at every point of their buying journey—from marketing to sales to customer service and everywhere in between. In large part, it‘s the sum total of all interactions a customer has with your brand. Customer experience is not just a set of actions. It also focuses on feelings. How do your customers or prospective customers feel about your brand? At every customer touchpoint, you can improve—or destroy—how your customers feel about you.
心理学定义的体验是对任何事物的感觉、知觉、情感、情绪的变化,综上所述,我对用户体验的理解是用户和产品之间互动形成的感觉,包括了:
产品的体验:功能是否完善、设计风格是否符合审美。 情感的体验:是否满意、是否愉悦。
体验的重要性
在生活中,用户体验所扮演的实际角色远远超过了我们的认知范围,它不仅适用于网站、软件的使用,也涉及到实体,例如驾驶汽车、使用运动器材或生活用品等。
用户体验每天都在影响着我们,它与文化、年龄、性别和经济阶层等变化交织在一起。随着产品越来越复杂,用户体验在我们的生活中起着持续上升的作用。当技术发展和成熟时,它们就会被越来越趋于多样化的人群所使用。
公元一世纪时,希腊和罗马用动物的皮来记录国家的法律、历史等重要内容,和中国商朝甲骨文一样都是古代书籍的重要形式。在印刷术发明前,书的复制都是由手工完成,其成本与人工都相当高。在中世纪时期只有少数教会、大学、贵族和政府有着书籍的应用。直到 10 世纪毕昇印刷术的发明,书籍才成为平民能负担的物品,从而得以广泛的传播。进入 1990 年代,随着网络普及,书已摆脱了纸张的局限,电子书又以空间小、便于传播、便于保存等优势,成为未来书的发展趋向。
当卷轴被编订为书籍,页码计数这个理念就使得目录、索引和交叉引用成为可能。这一突破性发明源自于人们意识到书本可以以除卷轴之外的形式存在。当马车演进为汽车,这其中蕴藏的变化早已甚于马车夫的消失。
一直以来,那些塑造用户体验的交互设计师们都在致力于降低新手的操作难度和满足专家用户提出的苛刻需求,从 15 世纪的书籍设计师,到 19 世纪的火车设计师,再到 21 世纪的智能手机设计师,均是如此。他们的创新设计源自于对人的深刻理解、对不同社会环境的敏感以及那些创造出新的技术应用途径的思想火花。
在没有 CAD 的年代,建筑设计师们是趴在桌子上画图,效率低还影响健康,而随着 PC 的到来, CAD 如同 Office 那样,改变了整个行业的办公模式,极大的提高了工作效率和身体健康。
在互联网时代,更是对用户体验推崇之至,提出了「以用户为中心」的方法论,因为用户体验的优化和创新甚至孵化了一大批的公司:
亚马逊:图书阅读的用户体验优化。 蚂蚁金服:金融服务的用户体验的优化。 Robinhood:股票业务的用户体验优化。 当今的便利生活:微信对二维码的利用。
对于用户来说,优秀的用户体验使我们在每次交互结束时感到幸福和满足:
产品操作简单、响应及时。 产品符合预期、理解成本低。 遇到异常情况时,有指引告诉我们应该怎么做。 无障碍设计能帮助更多的人群使用产品,改善生活。
在心理学中,有一个认知偏差,叫做美即好用效应 Aesthetic-Usability Effect,我们倾向于认为更美观的产品会更易用,会更容易克服所碰到的问题,这正是优秀的使用体验带来的影响。例如,当人们评论 Mini Cooper 汽车时,因为它看起来如此有趣,车的缺点便会被忽略。而如果人们处于焦虑的心情,他们会更加关注产品设计中的问题。
对于企业来说,用户体验会影响到各项经营指标,例如 CAC、LTV、ARPU、GMV、ROI 等。2019 年的一篇福布斯的文章指出,在着手改善客户体验的企业中,有 84% 的企业表示实现了收入增长,可见用户体验对其的重要性。
而不好的用户体验也会带来负面影响,在户外运动圈,有这么个冷笑话,淘宝上 9.9 包邮的商品都是 100% 好评,因为想给差评的已经没机会给差评了。截止到 2021 年 1 月 18 日,特斯拉的刹车失灵造成了 246 起事故,其中 9 起造成死亡,50 起造成受伤。
度量是什么?
度量,英文名 Measure,是一种测量或评价特定现象或事物的方法,我们可以说某个东西较远较高较快,那是因为我们能够测量或量化它的某些属性,比如距离、高度或速度,这需要在一个恒定可靠的测量方法。不管是用卷尺还是直尺,10 厘米就是 10 厘米;不管是用秒表还是手机 App,10 秒就是 10 秒;不管是称铁还是称棉花,10 公斤就是 10 公斤。
度量存在于我们生活的许多领域,每一种行业、活动和文化都有自身的一系列度量。比如,汽车行业对汽车的马力、油耗和材料的成本等感兴趣,计算机行业则关心 CPU、GPU、RAM、ROM。
我们知道:
每个人的视角都是主观的,不同的人有不同的视角,这是因为家庭、教育等原因造成的。 用户体验是主观的感受和想法。
由此能推断出每个人认知的用户体验是不一样的,有人认为能用就行,UI 根本不重要,操作复杂了点也无所谓,不过是多点几下,多花几十秒的事情;有人认为产品要能够易上手,没有学习成本,能够快速地找到需要的功能,UI 过得去就行;有人认为产品小到图标,大到界面布局,都要清晰易理解,操作更是要简单再简单,符合直觉与习惯用法,在使用中就算有误操作也能通过机制挽回。
为什么需要度量?
度量能回答以下问题:
产品的用户体验是否符合用户的期望? 如何与竞品比较谁的用户体验更好? 产品哪些地方用户体验不佳?如何改善? 如何衡量新版本是否改善了用户体验?
度量是中立客观的视角,能为决策者提供有效的信息辅助决策:
理解用户的行为和偏好。 发现产品的问题,提供优化建议。 达成共识:每个人对用户体验的定义是一致的,不同的产品使用相同的标准。 评估新旧版本的优劣:新版本的表单使数据输入错误率减少 75%,用户平均输入时间减少了 125s,订单量提升 10%,收入提高 5%。
设计是感性的,度量是理性的,优秀的产品体验不仅来自伟大的设计创意,也来自客观的衡量体系。体验是宏观叙事,有各种不可预知、不可控制的变量;度量是微观叙事,有条条框框的定量,正如 Peter Drucker 所说,If you can't measure it, you can't improve it。
如何度量?
用户调研的方法有很多种:
启发式评估 Heuristic Evaluation。 绩效量测 Performance Measures。 观察法 Observation。 问卷调查 Questionnaires。 访谈 Interview。 焦点小组 Focus Groups。 ……
但是用户体验的度量更多是:
标准化问卷 Standard Questionnaires:收集主观信息。 数据分析 Data Analysis:收集客观信息。
之所以不用启发式评估、访谈、焦点小组的原因是因为它们都较为主观,可信度一般,且小样本的数据无法代表在大样本量下也适用,而问卷经过科学的设计,在创建之处就对问卷测量的信度、效度和灵敏度做了测试,只有通过测试的问卷才能使用。
度量的发展经历
度量的发展经历了三个阶段,其主要特点有:
从硬件到软件。 从全面到垂直。
第一阶段 1940-1990
可称之为用户体验萌芽期,最早可追溯到第二次世界大战期间,美军组织心理学专家进行可用性工程学研究,其结果应用于飞机驾驶舱的系统设计,以减少由于人的因素所导致的操作失误。
1955 年,美国工业设计师亨利·德雷夫斯 Henry Dreyfuss 出版了《为人的设计》,奠定了将人体工程学系统运用在设计过程中的基础。
1970 年,鲍勃·泰勒 Bob Taylor 负责创建了施乐帕克研究中心 PARC ,孵化出各种突破性的 PC 和网络技术,并设计出带鼠标、图标和视窗的图形用户界面等重要人机交互工具、这一阶段,认知心理学、工程心理学以及工业设计,开始偏重于研究个人的生理、心理和机器之间的交互过程和结果,并共同孕育了用户体验的诞生。
第二阶段 1991-2010
随着计算机技术的突飞猛进,尤其是个人计算机的普及和图形用户界面的广泛应用,人机交互开始影响大众用户对于产品和系统的使用,用户界面设计变得越来越重要,用户体验迎来了理论、方法与实践的奠基期。
1995 年,来自设计领域的专家唐纳德·诺曼 Donald Norman 在美国人机交互会议上率先提出了「用户体验」的概念,并为业界所熟知。
1998 年,来自经济学领域的专家约瑟夫·派恩 Joseph Pine 和詹姆斯·吉尔摩James Gilmore 在《哈佛商业评论》发表了「体验经济时代来临」。
2001 年,美国《康复法案第 508 章》开始生效,法案要求美国政府所有机构的软件、网站及其他电子设备的设计需要遵从《第 508 章可使用性标准》。
2000 年,阿里、腾讯等企业开始在产品和系统的开发过程中,引入用户体验工作方法,并建立专业部门。
2002 年,自适应路径 Adaptive Path 的公司创始人杰西·詹姆斯·加勒特 Jesse James Garrett 出版了《用户体验要素》,系统地介绍了用户体验设计的模型。
2007 年,乔布斯推出用户体验做到极致的 iPhone,使用户体验开始成为一个热词。在此期间,苹果、微软等世界级企业逐步把可用性的概念引入到产品、系统的开发流程。
第三阶段 2010-至今
随着移动互联网的普及,人机交互、图形界面设计、品牌体验、用户研究、体验标准、体验质量与评测、体验管理等用户体验相关需求被骤然放大,很多企业都跟随头部机构陆续成立了用户体验部门或设立了相关岗位,用户体验从业人员规模持续增加,用户体验理论与方法在实践中不断创新。
2010 年,ISO 9241-210:2010 标准首次对用户体验作出定义。
2017 年,理查德·塞勒获得诺贝尔经济学奖,其作为行为经济学代表人物,推动心理学在经济领域的研究,揭示了人类的行为是如何影响个人决定及市场结果。
2018 年 11 月,德国商业软件集团 SAP 宣布以 80 亿美元现金形式收购专注于体验管理 Experience Management 的在线调查软件公司 Qualtrics。
目前有哪些度量标准
从 1940 至今,国内外较为人知的标准共有 30 个,其中第一阶段有 5 个,第二阶段有 16 个,第三阶段有 9 个。
第一阶段
1965 CSAT 顾客满意度
CSAT,全名 Customer Satisfaction,中文名顾客满意度,由 Parasuraman 和 Zeithaml 于 1965 年提出,CSAT 是市场营销中经常使用的术语,它是衡量一个公司提供的产品和服务是否满足或超过用户期望的指标。
满意度的适用性非常高,可以用于询问用户各种问题,可以看整体的产品体验满意度,也可以看具体的某个功能的满意度。满意度能够体现出用户对产品短期内的幸福感,但缺陷是无法体现用户对产品的长期态度。
CSAT 通常是七点量表,当然也有五点量表,只有一道题,向顾客提问「你对我们的产品满意吗?」,通过计算选择 6 分 和 7 分的用户所占比例得出分数。
1986 SUS 系统可用性量表
SUS,全名 System Usability Scale,中文名系统可用性量表,由 John Brooke 于 1986 年在 Digital Equipment Corporation 公司提出。
尽管 John Brooke 将其描述为「快速而粗糙」的可用性问卷,但是丝毫不影响它的受欢迎程度,SUS 量表被认为是 80 年代经典的可用性问卷标准,也被认为是用户体验研究中最著名的问卷,自 1980 年代的命令行界面时代以来,SUS 一直存在,并且被大量的实验证明是有效和可靠的。
SUS 用于评估对整体系统的可用性,它是一份五点量表,有 10 道题目,评估维度有可用性和可学习性。
1987 CUSI 用户满意度问卷
CUSI,全名 Computer User Satisfaction Inventory,中文名计算机用户满意度问卷,由 Kirakowski 于 1987 年在爱尔兰科克大学 University College Cork 的人为因素研究小组 Human Factors Research Group 提出。
CUSI 是一份五点量表,有 22 道题,评估维度有 2 个:
效率。 帮助信息。
1987 QUIS 用户界面满意度问卷
QUIS,全名 Questionnaire for User Interface Satisfaction,中文名用户界面满意度问卷,由人机交互实验室 Human-Computer Interface 于 1987 年在马里兰大学 University of Maryland 提出。
时至今日,QUIS 迭代了 7 个版本,最新的版本是九点量表,27 道题,维度有 11 个:
屏幕因素 Screen Factors。 术语和系统反馈 Terminology and System Feedback。 学习因素 Learning Factors。 系统能力 System Capabilities。 技术手册 Technical Manuals。 在线教程 Online Tutorials。 多媒体 Multimedia。 语音识别 Voice Recognition。 虚拟环境 Virtual Environments。 互联网访问 Internet Access。 软件安装 Software Installation。
第二阶段
1992 PSSUQ 研究后系统可用性问卷
PSSUQ,全名 Post-Study System Usability Questionnaire,中文名研究后系统可用性问卷,由 James Lewis 于 1992 年在 IBM 公司提出。
PSSUQ 起源于 IBM 1998 年名为「SUMS」的内部项目,时至今日,PSSUQ 迭代了 3 个版本,版本一有 18 道题目,版本二有 19 道题目,版本三有 16 道题目。
PSSUQ 被认为是 SUS 的替代产品,用于评估用户对网站、软件、系统或产品的满意度、可用度,它是一份七点量表,有 16 道题目,评估维度有 3 个:
系统质量。 信息质量。 页面质量。
1993 ASQ 场景后问卷
ASQ 的早期版本叫 PSQ,The Printer Scenario Questionnaire,中文名打印机场景调查问卷,于 1983 年提出,用于评估打印机的易用性。
ASQ,全名 After-Scenario Questionnaire,中文名场景后问卷,由 James Lewis 于 1993 年在 IBM 公司提出。
ASQ 是一份七点量表,共有 3 道题目,评估维度有 3 个:
任务难度。 完成效率。 帮助信息。
1994 10 Usability Heuristics 尼尔森十大可用性原则
10 Usability Heuristics for User Interface Design,中文名尼尔森十大可用性原则,由 Jakob Nielsen 于 1994 年提出,十大可用性原则是抽象的、广泛的经验法则,而不是具象的、具体的可用性准则,立意高远,所以十大原则至今仍然适用,能在各种产品中找到十大原则的应用。
十大原则是:
系统可见性 Visibility of System Status。 贴近场景 Match Between System and The Real World。 可控性 User Control and Freedom。 一致性和标准化 Consistency and Standards。 防错 Error Prevention。 协助记忆 Recognition Rather Than Recall。 灵活高效 Flexibility and Efficiency of Use。 审美和简约设计 Aesthetic and Minimalist Design。 容错 Help Users Recognize, Diagnose, and Recover From Errors。 帮助 Help and Documentation。
1994 ACSI 顾客满意度
ACSI,全名 American Customer Satisfaction Index,中文名美国顾客满意度,由美国密西根大学商学院、美国品管学会的国家品质研究中心和 Claes Fornell International 于 1994 年联合提出,ACSI 有 20 道题目,评估维度有 7 个。
1995 CSUQ 系统可用性问卷
CSUQ,全名 Computer System Usability Questionnaire,中文名计算机系统可用性问卷,由 James Lewis 于 1995 年在 IBM 公司提出。
CSUQ 是 PSSUQ 的变型,在发表 PSSUQ 之后,为了适应非实验室测试的测验环境,Lewis 更改了其措辞,创建了 CSUQ。因此,CSUQ 在项目数,计分方式等方面与 PSSUQ 是一模一样的,如果要在 PSSUQ 和 CSUQ 间作选择,则在实验室测试选择 PSSUQ,而在非实验室的测试环境时选择 CSUQ。
CSUQ 是一份七点量表,共有 16 道题目,评估维度有 3 个:
系统质量。 信息质量。 页面质量。
1995 SUMI 可用性测试问卷
SUMI,全名 Software Usability Measurement Inventory,中文名软件可用性测试问卷,由 Dr Jurek Kirakowski 于 1995 年提出,SUS 的前身是 CUSI、 QUIS 5.0。
SUMI是一份七点量表,有 50 道题目,评估维度有 5 个:
效率 Efficiency。 帮助性。 可控性。 易学性。 情感。
1996 WAMMI 网站分析和测量问卷
WAMMI,全名 Website Analysis and Measurement Inventory,中文名网站分析和测量问卷,由 Kirakowski 和 Claridge 于 1996 年在爱尔兰科克大学 University College Cork 的人为因素研究小组 Human Factors Research Group 提出。
WAMMI 最初来自 SUMI,经过研究后发现直接修改 SUMI 的问题和选项,也无法度量网站的可用性,于是重新设立问题,才有了 WAMMI,它是一份五点量表,共有 3 道题,评估维度有 5 个:
吸引力 Attractiveness。 可操控性 Controllability。 效率 Efficiency。 有帮助 Helpfulness。 可学习性 Learnability。
199? SEQ 单项难易度问卷
SEQ,全名 Single Ease Question,中文名单项难易度问卷,提出的时间未知,我在 Google 上无法搜索到出处,提出人疑似为 Edward Tufte。
SEQ 是一份七点量表,共有一道题,题目是:
总的来说,完成任务的难度和容易程度如何? Overall, how difficult or easy was the task to complete?
主要用于评估用户在网站或应用上完成特定任务的难度,是可用性测试的一部分。
1998 ISO-9241-11 国际标准可用性测试
ISO,全名 The International Organization for Standardization,中文名国际标准化组织,是一个由各个国家标准机构组成的全球联合会,主要目的是为了制定国际标准,方便统一管理。
ISO-9241-11 于 1998 年发布,2018 年发布了新版本,在新版本中共有 16 道题,评估维度有 3 个:
效益 Effectiveness:用户完成任务的精确性和完整性,参与者被要求完成六个任务,完成每个任务的成功率或失败率被测量,以评估应用程序的效率。当参与者完成任务而没有产生错误或要求协助时,任务完成被认为是成功的。 效率:用户完成任务所消耗的资源,填写 SEQ 问卷。 满意度:用户对任务流程的可接受程度,填写 SUS 问卷。
ISO-9241 对 Usablity 的定义在今日的设计质量评估仍旧有很强的指导性和应用性,在衡量完成特定任务的过程中,用「效率」和「效益」,一般为任务完成程度和所消耗的「时间/人力」即可评估出特定任务的可用性,在流程较长的 B 端产品体验度量中尤为常用。
2001 USE 量表
USE,是 Usefulness, Satisfaction, and Ease of use 的缩写,中文名有效性、满意度和易用性,由 Arnie Lund 于 2001 年论文 Measuring Usability with the USE Questionnaire 中首次提出。
USE 是一份七点量表,30 道题,评估维度有 4 个:
有效性。 易用性。 易学性。 满意度。
2003 NPS 净推荐值
NPS,全名 Net Promoter Score,中文名净推荐值,由贝恩咨询公司用户忠诚度业务的创始人 Frederick Reichheld 于 2003 年 Harvard Business Review 的文章 One Number You Need to Grow 中首次提出。
NPS 是某个用户将会向其他人推荐某个企业或服务可能性的指数,它是最流行的用户忠诚度分析指标,专注于用户口碑如何影响企业成长,通过密切跟踪净推荐值,企业可以让自己更加成功。
NPS 的优劣势:
易于使用且计算公式非常直观,只需要用户回答一个问题就可以完成。 能够横向对比,如果你的 NPS 分数是 61 分,而你的竞争对手是 70 分,那么你能清晰地知道和竞争对手的差距。 不能证明推荐者会真的向他们的朋友推荐产品,因此分数不一定与用户在现实生活中的推荐行为相关。 不够具体,无法指出用户变成贬损者的原因。要了解用户为何有所不满,必须设计更具体的市场研究调查问卷,或用用户满意度调查问卷进行后续跟进。 若无任何后续行动计划,NPS 分数对业务毫无帮助。如果 NPS 分数真的很低,你准备下一步怎么做?你会发送更详细的调查问卷来查明问题所在吗?你是否有资源解决可能导致客户不满的使用问题? 在实践中,很难直接提升 NPS,更多时候是 NPS 作为用户满意度调研的一部分,通过测量和提升各环节或具体方面的 CSAT,进而达到提升企业整体 NPS 的目标。
2010 CES 顾客费力度
CES,全名 Customer Effort Score,中文名顾客费力度,由 Matthew Dixon、Karen Freeman 和 Nicholas Toman 三位于 2010 年 Harvard Business Review 文章 Stop Trying to Delight Your Customers 中首次提出,它是让用户评价使用某产品来解决问题的困难程度。
CSAT、CES、NPS 三者区别
CES 是基于 CSAT 无法客观体现用户忠诚度的研究所提出的,根据 Oracle 的一项研究,82% 的人把他们的购买经历描述为「花费太多的努力」,CES 是想办法减少用户为了解决问题而付出的努力。
CES 应该和 NPS 一起使用,因为 CES 衡量的是单个接触点,而 NPS 衡量的是整体体验,包括产品属性、价格、品牌和服务等。例如,你的用户可能与你的公司关系很好,但这次的互动很糟糕,如果只看 CES,你会认为他不会成为忠诚客户,但事实可能并非如此。
从 CES→CSAT→NPS,是一个用户预期的渐进变化,CES 更关注的是基础体验,也就是简单好用。
2010 UMUX 用户体验的可用性度量
UMUX,全名 The Usability Metric for User Experience,中文名用户体验的可用性度量,由 Kraig Finstad 于 2010 年论文 The Usability Metric for User Experience 中首次提出,其前身是 SUS 问卷,目的是为了在不影响问卷可信度的情况下,尽可能的减少问卷的题目,也是为了更符合 ISO 的评估维度。
UMUX 是一份七点量表,共有 4 道题,对应 3 个评估维度。
问卷的通用问题
是用户自行填写的数据,数据可能不可靠。 衡量的是用户的主观感受,而不是客观表现。虽然满意度和客观性能指标,例如任务完成率、任务时间或错误,之间有一定的相关性,但满意度指标通常在与性能指标相结合时能说明更清晰的问题。 每个用户可能对分数的定义各不相同,例如 7 分中的 5 分的含义是什么。 低样本量的情况下,例如 5 个用户,不太可能提供有统计学意义的结果,最终得出的结论也具有高度误导性。
第三阶段
由于问卷的缺陷,在第三阶段的度量标准中,不约而同地都加入了客观指标,来衡量用户体验。
200?PULSE 产品体验评估指标
PULSE,传统 Web 产品体验评估指标,由 Google 提出,提出的时间未知,搜索了很久都没有找到,PULSE 的每一个字母代表一种指标:
Page Views 页面浏览量:产品指标,衡量页面被用户访问的次数,以及逐级页面的点击转化情况。 Uptime 运行时间:技术指标,衡量网站持续稳定的运行时间。 Latency 延迟:技术指标,衡量用户打开页面的速度。 Seven-day active users 七日用户活跃:产品指标,反映网站的实际运营情况,用于估计产品的用户规模。 Earnings 收益:商业指标,例如电商业务关注 GMV,音视频业务关注 VIP 用户数。
PULSE 是基于商业和技术来评估产品的,是跟踪产品的整体表现,无法直接通过指标观测用户体验是怎么样的。
2010 HEART
HEART,是在 PULSE 的缺陷上,加以改进形成的以用户为中心的体验度量模型,由 Kerry Rodden、Hilary Hutchinson 和 Xin Fu 在 Google 于 2010 年在 CHI 论文中首次提出。
HEART 的每一个字母代表一种用户体验测量标准:
Happiness 愉悦感。 Engagement 参与度。 Adoption 接受度。 Retention 留存率。 Task Success 任务完成率。
HEART 并没有具体的度量指标,不同的产品可定义不同的指标,例如:
愉悦感能结合用户的满意度来度量。 参与度、接受度、留存率能结合用户的行为数据来度量。 任务完成度能结合任务完成的效果和效率来度量。
HEART 并不适合在一个指标设定中用到所有维度,但可以参考该模型来决定是否包括或排除某个维度。比如用户是要将使用你的产品作为工作的一部分,在这种环境下参与度就没有什么意义了,可以考虑选择愉悦感或者任务完成度。
愉悦感
愉悦感是设计用户体验中的主观感受问题,像满意度、视觉感受、向别人推荐的意愿、易用性感知。可以通过设计问卷,长时间监控相同的指标来比较修改后带来的变化。
例如,Google 曾经有个性化首页的服务,团队利用产品内置的检测手段,跟踪了一周内一系列的指标来研究改版和新功能的影响。在一次大改版之后,起初用户满意度指标是大幅下降的,但是随着时间推移,这个指标逐渐恢复,这表明大幅下降只是因为刚改版时的不适应。渐渐习惯这次改变之后,用户实际上是很喜欢的,有了这一信息,团队就可以更有信心地坚持这次改版的设计。
参与度 Engagement
参与度是用户在一个产品中的参与深度,在这个维度上,通常用来作为一段时期内访问的频度、强度或互动深度的总和。比如单用户每周的访问次数,或者用户每天上传的照片数,这比总量要好,因为总量的增长可能是由更多的用户的产生,而不是更多的使用产生的。
例如,Gmail 团队更想研究用户的参与度,而非 PULSE 指标体系中的七天活跃用户数,只是上周使用该产品用户的简单计数之和。我们有理由去相信,深度用户会经常检查他们的邮箱,因为他们已经形成习惯。我们选择的指标是一周内访问五天或者更多的百分比,这一指标同样也可以用来预测用户长期的留存度。
接受度和留存率 Adoption & Retention
接受度和留存率指标通过特定时期内大量用户的统计,例如最近 7 天日活数,提供强大的洞察,来定位新用户和老用户的差异问题。接受度监控特定时期内有多少新用户开始使用产品,例如最近 7 天内新创建的账号。
留存率则监控特定时期内有多少用户在下载后一个时期内仍然存在,例如某周的 7 天日活数在 3 个月后仍然在 7 天日活用户中。
「使用」和「周期」需要因地制宜,有时候「使用」就意味着访问网站,有时候则是到达了某个特定的页面或者完成某种互动,例如创建账户。留存率和参与度相似,它可以被定义不同周期长度,有的产品也许只需要观察周数据,有的则需要月数据或者季度数据。
例如,在 2008 年证券市场暴跌的那段时间,谷歌金融在浏览量和七日活动用户指标上都有一次井喷,但无法确定数据的剧增是来自关心金融危机的新用户或是恐慌性不停查看他们的投资信息的老用户。
在不知道是谁增加了这些访问量之前,决定是否要改版网站以及如何进行修改十分困难,谷歌金融利用接受度和留存率这两个指标来区分用户群体,同时还关注了新用户继续使用该服务的百分比,这类信息被利用于解读事件驱动的数据波动,以及发现潜在的机会。
任务完成率 Task Success
任务完成率维度包括一些传统的用户体验行为指标,比如效率,完成任务的时间、效果,任务完成的百分比以及错误率。
例如,谷歌地图曾经有过两种不同的搜索框,一种是用户可以分开输入「目的」和「地点」的双重搜索框,另一种是单个搜索框处理所有的类别。有人觉得单个搜索框就可以胜任一切,同时又保持了效率,在之后的 A/B 测试中,团队测试了仅提供单个搜索框的版本。他们比较了两个不同版本的错误率,发觉用户在单个搜索框版本中能够更加有效地达成他们的搜索目的。最终,这个结果让团队非常有把握地在所有地图上移除了双搜索框功能。
GSM
GSM 模型是和 HEART 一并提出的概念,是为了将 HEART 度量标准应用于实践。
No matter how user-centered a metric is, it is unlikely to be useful in practice unless it explicitly relates to a goal, and can be used to track progress towards that goal. We developed a simple process that steps teams through articulating the goals of a product or feature, then identifying signals that indicate success, and finally building specific metrics to track on a dashboard.
无论一个指标如何以用户为中心,除非它与目标明确相关,并可用于跟踪该目标的进展,否则它在实践中不太可能有用。我们开发了一个简单的过程,通过阐明产品或功能的目标,然后确定表明成功的信号,最后在仪表盘上建立具体的指标来跟踪。
———Kerry Rodden, Hilary Hutchinson, and Xin Fu
GSM 的意思是:
Goal 目标:用户需要完成什么任务?设计的目的是什么?是吸引新用户更重要,还是鼓励现有用户更多的参与? Signal 信号:想想目标的成功或失败如何体现在用户的行为或态度上,什么样的行为会表明目标已经实现?哪些数据会与成功失败相关?如何收集这些行为和数据? Metric 指标:如何将这些信号转化成具体的衡量标准?能否和其他的项目或产品进行比较?
2010 HEART + GSM
HEART + GSM 就是一套完整的产品体验评估模型,能推导出每一个度量维度相关的目标、信号和指标,以及拿到这些衡量指标的评估方法。因此,模型的落地应用和目标的拆解密不可分。
2015 五度模型
五度模型,由 1688 UED 的戴均于 2015 年发布。
五度模型是按照用户使用产品的整个生命周期过程来组织的,从用户的行为与态度和当下与未来这两个维度进行分解,五度分别为吸引度、完成度、满意度、忠诚度和推荐度,适用于 C 端产品。
2017 TECH 度量模型
TECH,由蚂蚁金服于 2017 年发布,基于 HEART 模型并根据业务特性做出了优化:
NPS 改为用户主观满意度:NPS 对 C 端产品是一个很有效的指标,对于企业级中后台来说,往往由于企业产品的封闭内环、用户基数等众多原因,可能还是满意度来的更加有效。 不强调留存率:企业级产品用户往往没有太多的可选余地,因此留存率未必适合用来衡量用户对于产品的喜好。 参与度和接受度指标合并:对于企业级中后台系统,用户使用的目标性更强,TA 就是来完成某个任务或完成工作的,因此活跃度基本和产品能否满足用户的需求强相关。
2019 PTECH 度量模型
PTECH,基于 TECH 并加入了性能体验 Performance 维度,能直接计算产品的体验分,由蚂蚁金服于 2019 年 SEE CONF 科技大会发布。
2019 UES 度量系统
UES,全名 User Experience System,中文名 UES 度量系统,由阿里巴巴旗下的阿里云设计中心于 2019 年提出。
2020 两章一分
由于 PTECH 模型操作门槛较高、对埋点数据有不少要求,难以推广到各条业务线,于是去繁从简,提高通用性,蚂蚁金服于 2020 年发布了两章一分。
2021 DES 度量模型
DES 由优酷设计团队于 2021 年提出的,模型分两种,一种是通用模型,为各业务、产品都会涉及到的设计通用维度,更专注于设计本身的维度度量。任何功能类型都可以从基础体验和完成度角度考察设计是否吸引、清晰、易读、高效。将满意度和费力度合并在一个类别中,作为用户主观态度维度。
另一种是针对各业务的设计团队制定具备指向性的模型,例如 B 端平台、长视频消费端、短视频消费端来构建模型。
度量的时机
在产品测试阶段进行度量。
度量的特点
将上述的度量模型汇总并对比,能够发现以下特点。
相同点 体验流程一致
不管是使用 C 端产品还是 B 端产品,用户的学习和使用路径都是一致的,这个路径称为「OADI 模型」。
Observe 看见
视觉认知,从外界或者经历中取得信息,在设计层面可以对应为「吸引性」,例如:
颜色。 文字。 动态效果。
Assess 理解
理解思考,是对得到的素材进行解释、评估,加以理解,在设计层面可以对应为「易理解性」,例如:
布局、文案、信息的表意清晰。
Design 吸收
分析学习,是对理解的信息进行分析重构,在设计层面可以对应为「易用性」,例如:
易学性。 易操作性。
Implement 行动
付诸实践,是基于信息进行行动,在设计层面可以对应为行动的质量,即为「任务效率」,例如:
任务完成度。 任务完成时长。 人效。
不同点 产品形态
因为产品形态的缘故,导致 C 端产品和 B 端产品的度量方法迥然不同,C 端产品业务及用户数据丰富,用户体验易于量化,而 B 端产品缺少直接相关的业务数据及用户数据,用户体验难以量化。
即使是 B 端产品也各有不同,可以分为通用型产品、商家产品、中后台产品。
分析特点
上文共 30 个度量模型,一百多个度量指标,将这些指标合并汇总,数据清洗后发现出现次数最多的 5 个指标是:
易用性:14 次。 效率:12 次。 满意度:10 次。 可靠性:6 次。 易学习性:6 次。
不同的产品形态,对应的度量标准应该是不一样的,那么事实真的如此吗?将指标次数按照 C 端产品和 B 端产品进行拆分后,发现确实不太一样:
5 个指标中有三个指标重合了,分别是易用性、效率、满意度。 因为用户群体的原因,C 端产品有「易学习性」,而 B 端产品没有。 因为 B 端产品形态的原因,B 端产品有「一致性」和「清晰度」,而 C 端产品没有。
B 端产品度量特点
不注重参与度 第一是因为强制性使用,衡量它没有意义,例如 IM 的参与度肯定是 100%;第二是因为没有需求,例如采购可能会经常用到「合同管理」功能,研发可能很少用到。
操作时长因地制宜,无法通用化 企业中后台产品类型多、使用场景复杂程度各自不同,操作时长难以作为通用的衡量标准,例如用语雀创建企业空间只需要 5 分钟,用云凤蝶搭建一个后台页面可能需要 60 分钟,用 sofa stack 创建并发布一个应用可能需要 2-3 个小时。
关注性能 因为其本身的特殊性,B 端注重生产力和工作效率,生产力的前提是系统性能的可靠性、健壮性,需要降低响应时间和提高系统吞吐量。
关注一致性、清晰度 B 端产品的后台多种多样,降低学习成本的最好方式就是使用一致的文案、布局、设计系统。
关注易用性 易用性的目的同样服务于生产力,符合用户的习惯与需求。
度量模型的搭建
现在分析了这么多,那么如何从无到有搭建一套度量模型呢?
明确产品类型
不同类型产品面向的人群、解决的需求都各不相同,因此关注的指标也各不相同,例如 Dating 关注 Match 指标,电商关注订单指标,所以,在进行使用体验度量前,应先明确产品类型 。
明确度量目标
以优酷视频为例,例如 C 端视频的的目标是吸引度、忠诚度、任务效率、满意度。
明确度量指标
将维度拆分成具体的子指标,例如 C 端视频的子指标是:
吸引度:入口点击率、点击次数。 任务效率:跳出率、页面停留时长 满意度:满意度评分。 忠诚度:次日、7 日留存。
完善度量信息
完善度量信息有三步,分别是:
确认指标基准。 确认指标权重。 确认测试人数。
确认指标基准
例如点击率多少算合格呢?30%?为什么 30% 算合格而不是 40% 算合格?可以和行业的平均水平或者和公司内部类似的产品类型进行对比。
确认指标权重
可以根据产品类型来分配权重,例如 C 端产品的满意度和忠诚度的权重更高,B 端产品的任务效率权重更高。具体多少算高呢?50% 是高,70% 也是高,可以使用 AHP 层次分析法和优序图法来针对不同类型业务的产品进行指标权重的设定。
确认测试人数
Jakob Nielsen 在 2000 年提出测试 5 人就能发现 85%的可用性问题,阿里巴巴设计团队建议的最低测试人数是 3 人。
此外,可以通过「远程测试+语音会议」来降低测试的成本,具体的步骤是:
被测试的用户共享操作屏幕并实时录屏。 其他的参会人员一同观察并提出相关疑问。 同时用讯飞或飞书等语音转文本工具,记录会议内容。
这么做的好处有:
突破了距离和观察人数的限制,能同时对 2-3 人进行测试,执行成本减半。 语音转文本后,显著提升了分析效率。 内容可沉淀,日后可供其他成员参考。
如何选择度量模型
度量模型的选择其实和搭建是类似的,需要结合上文的 GSM 进行 :
选择模型:结合业务类型,选择特定的模型,例如 C 端产品选择 HEART,B 端选择 UES,商家产品选择 DES,中后台产品选择两章一分。 选择指标:结合业务类型,定义指标,例如 C 端产品有参与度,但是 B 端产品较少有参与度。 选择方法:思考哪些方法能够量化度量的指标?
如何将度量运用到团队中
体验度量的实施其实和 Scrum 很像,都是一种新思路新方法,因此需要:
宜小规模试点,忌大范围开展
步子迈的太大,容易扯着蛋,新兴事物的出现,应该找最容易接受它的那一批人实验,而不是盲目的推荐给所有人,这很容易遭到守旧派的抵触,在公司内部也是如此,应该找某一个部门或团队进行试点,而不是粗暴的推广,一刀切的做法很容易带来负面效果,例如流于形式浮于表面,为了度量而度量,只是单纯的完成任务。
在实施过程中,应该配备专项工作组来负责其在企业内的推进落地,解决人手不足的问题。
宜达成共识,忌貌合神离
度量的团队内部成员应该自发的认可度量,调动主观动能性,认识到度量是十分的重要且有用的,而不仅仅是当做一项任务去实施。
宜事半功倍,忌事倍功半
在增长黑客的方法论中,有个名词叫「寻找低垂的果实」,意思是在初步的实施过程里,应该先找那些容易提升体验和数据的产品,这么做容易树立成员的信心,形成正反馈。而不是上来就想搞个大新闻,拿起硬骨头就啃,这么做容易打击成员的信心,让成员怀疑人生,会开始思考「体验度量是否有用」之类的想法。
度量运用时要注意些什么
四个原则和长期有耐心。
四个原则
可理解:指标要有相关说明,使各方达成共识。 可量化:指标要可量化。 可提升:指标要有对应的基准,要有可提升的空间。 可执行:度量要结合业务目标,可落地不偏离方向。
长期有耐心
体验度量关注的不仅是短期表现,更关注长期价值,因此需要长期有耐心,这并非一朝一夕之功。
体验度量的反馈周期可能较长,因为依赖于产品规划、需求管理机制、发布节奏等。
体验度量因为存在客观数据和主观数据,在数据采集过程中可能用到多种采集方式和渠道,这就让横向比较,例如本品与竞品表现比较、纵向比较,例如本品当前版本与历史版本表现的比较,带来一定的挑战。
结语
本次的体验度量就总结到这里了,相对于上个版本,这次思考的更全面了些,希望下次能总结的更好。
References
我的4条产品设计工作观