一场永无终点的科学实验。
作者:陈文琦
移动互联网时代公司的母题,不是赚钱,而是「增长」。谷歌、Facebook、Netflix 从初创公司快速成长为巨头,也让「增长黑客」成为一门互联网「玄学」。
在所有增长手段中,A/B 测试(A/B Test)是最能体现「数据驱动」理念的产品。本文通过 Google 等公司在 A/B 测试上的实践,挖掘硅谷巨头在增长上的秘密。
A/B 测试的前世今生
故事要从 18 世纪说起。
工业革命、启蒙运动,人类的底层逻辑被刷新,科学的研究方法与成果掀起层层浪潮,一些困扰多年的难题被解开。在欧洲,以航海为生命的维京后代们继续着他们的远征,但不幸的是,长期远洋航行的水手船员在恶劣的海上环境中常被坏血病困扰。
一边是经济社会的蓬勃发展,对于更多资源的饥渴需求,一边则是出海的勇士们被坏血病折戟,严重的时候超过半数船员再也无法回到起航时的港口。幸运的是,英国海军医生詹姆斯·林德发现了一种神奇的巧合——食谱中有柑橘类的水果的船员患坏血病的几率更低,船员的救命药难道就是再普通不过的青柠(lime)吗?
质疑医生的人很多。他选择用一种在今天看来已经非常普通且广泛运用在互联网的方法来证明自己的猜想——A/B 测试。
他把患病的 12 名船员们分成六组,确保病人们的基本食物一样,所处环境也相同,唯一的变量是,给每组开出了不同的疗法:一组船员的饮食中加入青柠、一组加入橘子、一组加苹果、一组加醋、一组加酏剂、一组加海水。结果显而易见,摄入橘子和青柠的两组很快就痊愈了。
这是两百多年前的坏血病实验,其采纳的 A/B 测试已经成为医学领域最为常见的实验方法。而如今,A/B 测试也已在医学之外的领域开花结果,成为了包括硅谷在内,全球互联网与商业的方法圭臬——在多种因素都对实验结果有影响时,保证其他条件相同,来证明某一变量对结果的确切影响。 A/B 测试以小成本快速试错,用客观数据结果纠偏人们的主观臆断,让产品与生意最大限度地科学增长。
或许有人会问,这不就是简单的对照组实验吗?但千万别小看 A/B 测试,它不只是粗暴地分组比较,而是基于实验对象的精细测评,每一个维度的筛选、每一个差异刺激的设计,都需要严谨的依据和判断。在这个信息爆炸、场景碎片化的多样化时代,变量无处不在,如何做好一个 A/B 测试,测之有因,测其所得,并不是件简单的事。
与此同时,商业社会空前繁盛,竞争激烈到每一个罅隙的增长都必须争取,生意对于失败的容错率非常低。 而 A/B 测试便是那个科学分析、最大限度规避风险、敏捷增长的利器。
从 1990 年代后期开始,科技巨头就开始借助 A/B 测试来确定最优方案,并逐渐形成自己的测试平台和体系。今天,包括 Google、Facebook、亚马逊在内的大公司每年都进行数千到数万次实验,新一代在数据驱动思维里成长起来的初创企业也见识到了 A/B 测试带来的增长魔力。
Google 如何做 A/B 测试
互联网行业的 A/B 测试本质上是一种「先验」的实验体系,针对某一需要改进的功能、页面或是产品,提供两种或以上的方案,合理分配流量,将不同方案发布给不同用户。在运行一段时间后,结合各项指标和科学的统计方法,对比实验数据做出决策,将最优方案更新给全量用户。
通常的流程是,确定目标、建立实验假设、设定指标评估影响、设计及开发实验方案、确定测试时长和分流方案等、采集和分析数据、最后进行评估得出结论。通过科学的实验设置,测试不仅可以对比出哪种方案更好,还能预测性地通过一些指标(比如用户的访问时间、留存度、下单率等),量化最优方案好多少。
Google 是互联网界 A/B 测试的先驱。
早在 2000 年,Google 工程师就进行了他们的第一次 A/B 测试,用于确定搜索结果页面上展示多少条对用户最友好。这次尝试称不上成功。世纪之交,缓慢的网页加载速度未能允许实验达到预期。
但是 Google 成为了 A/B 测试的忠实拥护者,仅仅在 2011 年一年时间里,这家搜索巨头就进行了 7000 多次的测试。
当 Google 在 Gmail 邮箱里推出广告的时候,团队想知道:有没有一种理想的蓝色能够更吸引用户点击链接?为此,他们对 41 种蓝色——从蓝中带绿到绿中带蓝——进行了 A/B 测试。结果是,一种略带紫调的蓝色比其他蓝色更能促进点击率。这谁能猜到呢?而这个微小到用户也许根本注意不到的细节改变,却为公司带来了每年 2 亿美元的额外广告收入。
现在,Google 每个月都会上线几百个大大小小的 A/B 测试。这些实验,每年直接给公司带来了超过 10 亿美元的增收。
这种提供决策依据的方法充分彰显了互联网「数据驱动业务增长」的理念。
很多时候,A/B 测试被用来决定非常细微的功能变化。例如,是否在新标签页中打开搜索结果——虽然这一功能可以在设置中自定义或者通过快捷键实现,但是通过 A/B 测试,Google 发现将切换按钮在搜索框下突出显示时,用户体验更好。
而现在许多用户已经习惯的「暗黑模式」其实也经历了几番测试。
Google 测试突出显示「在新标签页中打开」
虽然乍一看优化的只是细枝末节,但是基于 Google 庞大的用户量,每个不起眼的改动能产生巨大的影响。
A/B 测试贯穿了 Google 的产品目录和公司整体运行,有时候,测试会在更大的范围和更长的时间跨度里进行。比如对于即时通信的解决方案,Google 看上去非常「犹豫不决」,推出过 Google Talk、Google Chat、Google+ Messenger、Huddle、Hangouts 等。
Google 希望通过测试内部的多个解决方案,找到优胜者,先一步赢得市场,而不是坐以待毙,等外部的竞争者找到开启增长的密钥再加以复制。
因此,对于 Google 来说,A/B 测试是不可或缺的。这是公司用来感知用户的最佳途径;做产品决策的科学思路;也是最大化广告效果,增加收入的策略。
值得注意的是, 从自己摸索 A/B 测试方法,到形成行之有效的测试体系,Google 还将 A/B 测试的能力开放给外部客户。
比如 Google 的 Google Optimize,提供了易用的 A/B 测试工具,降低了开发者和广告主做测试的门槛,并可以关联 Google Analytics 进行数据分析。
一个「被赋能」的案例是,音乐流媒体 Spotify 在海外扩张时,想为不同区域的听众差异化着陆页,但这在研发上要耗费巨大成本。在德国市场,它使用 Optimize 为对听书功能(Audiobook)感兴趣的用户定制了一个着陆页。结果是,新页面相比原版本,付费用户率提升了 24%。最终,Spotify 在全球范围内应用了这一设计。
开放测试能力,这一方面是 企业价值观的体现 ,Google 致力于拓展良性的生态环境,让伙伴受益从而优化整个商业环境;另一方面也说明 A/B 测试本身经过几十年的发展,已经逐渐成熟为一门独立的学问了。
A/B 测试风靡硅谷
硅谷没有秘密,A/B 测试也不是 Google 的专属。在「精益创业」思想浪潮的席卷下,硅谷的诸多巨头都用上了 A/B 测试这一增长利器,并且将其传道。
流媒体巨头 Netflix 就是 A/B 测试的信奉者之一,并且乐此不疲地在自己的科技博客里分享其 A/B 测试实践中的方法和经验。
「如果消费者在 90 秒内没有找到可观看的内容,他们就会离开。」Netflix 在博客里强调。为了在这短短的 90 秒内抓住用户,Netflix 绞尽脑汁。 其在 UI 布局设计、个性化主页、播放功能等等环节都会进行 A/B 测试,因为一个简单的标题或者图片改动就能让观看量得到 20%-30% 的增长。据「深响」了解,国内的一些视频网站也采取了类似的做法。
Netflix 早期进行的经典测试之一是关于影片或剧集的展示图对点击率的影响。
《人小志气高》(The Short Game)是一部讲述小学生在高尔夫球场上竞技的影片。Netflix 对不同用户组推送了不同的展示海报,并分析了几个关键指标,包括点击率、总播放时长、短时播放的比例、观看的内容比例等等,最终发现下图中间(Cell 2)的海报胜出了,实验用户组平均的点击率比默认组高 14%。
Cell 2 海报的播放量较原来版本提升了 14%。来源:Netflix 科技博客
这是一个信号——展示海报对用户行为可以产生影响。证实这个假设之后,Netflix 继续进行更复杂、更多维度的测试去优化用户界面。
A/B 测试是一个统计学与数学的实验,解构每一个元素,如何尽量撇除其他因素的影响,从一次次测验中归纳出关于用户行为的规律。
Netflix 的技术人员在博客里写到,他们通过实验发现,具有强表现力的面孔比平静的更吸引用户眼球;更具辨识度或者两极化的人物形象表现通常更好;反派人物能得到较高点击率;封面包含三个及以上人的时候点击率又会下降...... 而这些实验结果也并非绝对的,不同地区的观众对图像的反应会产生差异,这要求颗粒度更细的实验和运营。
强表现力的海报(右下)效果更好,来源:Netflix 科技博客
互联网巨头们在 A/B 测试的普及进程中起到了标杆性的作用。而这种科学精神在「大佬」们的推动下已经渗透了整个互联网。
在「效率第一」的硅谷,产品决策的流程化在加速,A/B 测试是重要一环。用户们对于 App 的新功能感到兴奋,但并不知道,在最终呈现之前,有多少版本在实验中落败。
Snapchat 的崛起让社交网络大哥 Facebook 感到恐慌。围绕 Snapchat 独特的「阅后即焚」和「快拍」功能,Facebook 在旗下的不同社交平台上展开了一系列测试。一次次失败之后,允许用户发布 24 小时限时内容的「快拍」(Stories)的功能现身在 Instagram 上,为这个已略显疲态的图片社交产品注入新鲜感。
为了更高效率地在移动端进行 A/B 测试,Facebook 开发了 Airlock 测试框架,助力内部开发人员。
其实,A/B 测试不仅有益于自身产品的优化,也可赋能生态内的客户,实现双赢,何乐而不为?我们看到,除了上文提到的 Google,亚马逊和 Facebook 也把一些 A/B 测试工具开放给商家和广告主。
比如亚马逊,这家屡次登顶全球市值巅峰的公司就有多种适配的 A/B 测试工具,让商家去检验怎样的商品名称和展示页可以有效提升品牌度和销售量。
而 Facebook 作为广告营销的重要平台,也完善了适用于各个场景的 A/B 测试工具,让广告主和品牌来评估各项方案,实现投放效益最大化。
亚马逊商家用测试工具可以便捷地创造不同的商品展示页
所有人的 A/B 测试
A/B 测试不只是互联网巨头的杀手锏,它也是游戏、媒体、金融等行业的常客。在硅谷,无论公司大小都已意识到 A/B 测试对于决策的重要性。
2013 年,著名的互动软件娱乐公司艺电(Electronic Arts)上线《模拟城市 5》之后两周就卖出了 110 万份。其中游戏 50% 的销售都来自于网上下载,傲人的成绩归功于一个近乎完美的 A/B 测试。
艺电为游戏销售页面设计了两个方案。一个版本是,促销的信息显示在预订的页面 banner 上,让购买者一目了然;另一个方案是把促销信息删了。实验结果是没有促销信息的版本相较前者的转化率提升了 43.4%。最终他们采用了这一方案,实现了上述销量。
这个 A/B 测试的结果甚至是有点「反常识」的,依据人的经验,折扣信息往往可以刺激消费者的购买欲,但是通过实验,显然这并不适用于《模拟城市 5》的目标群体。
有促销信息的版本(上)与没有促销信息的版本(下)
媒体行业也常用 A/B 测试的方式对标题进行实验,来吸引网络时代越来越不耐心的读者们。
《纽约时报》采取 A/B 测试,在其网站上为同一文章展示不同标题,在一些案例中,一个好标题可以提升成倍的阅读量。比如,《纽约时报》编辑写到,「巴尔的摩的反省,弗雷迪·格雷周年祭」(Soul-Searching in Baltimore, a Year After Freddie Gray's Death)和「弗雷迪·格雷死亡之后的巴尔的摩:『心境已变』」(Baltimore After Freddie Gray: The 『Mind-Set Has Changed』)相比,后一标题的阅读量得到 1677% 的提升。
有意思的是,A/B 测试还收获了政客们的青睐。
2008 年,奥巴马团队竞选团队为募捐网站设计了 4 种按钮和 6 个不同的图像。对 24 种不同组合,团队进行了数据跟踪,最终下图右上角的界面获胜,注册率相比原始界面提高了 40.6%。这 40.6% 的新增用户直接带来了额外的近 6000 万美元的捐款。
这次 A/B 测试的成功,促使竞选团队的数据分析总监丹·西罗克 (Dan Siroker)在 2009 年创立了 Optimizely,一个 A/B 测试工具平台,帮助没有技术背景的用户测试不同版本的网站,优化体验。
右上角的界面是最后的优胜者
我们试图寻找美国商业大亨们抵触 A/B 测试的案例,但抱歉的是,这种科学思路其实是西方社会普遍推崇的思维方式,「你不需要跟他们解释太多,因为 A/B 测试根上的理念就是他们小时候天天学的逻辑、实验、critical thinking(辩证思维)。」一位在硅谷工作的华人工程师告诉「深响」。
几百年来,A/B 测试的核心原理始终未变。作为「数据驱动」、「科学精神」的完美体现,更作为一种前置验证的手段, A/B 测试帮助企业验证了策略收益,避免错误策略所带来的负面影响,其所带来的收益将远大于企业所付出的成本。
在这样的共识与汗牛充栋的成功案例下,A/B 测试得到硅谷巨头们的拥趸,成为各行各业大大小小企业、产品的增长利器、工具标配。当然,暖风吹过西海岸,这把利器也正在大洋彼岸的中国发光发热,并且逐步展现出本地化的特色和新意。