上个月,机械工业出版社出版了一本《关键迭代:可信赖的线上对照试验》
作为与机工社合作过的作者,十五有幸第一时间拿到样书作为作者福利。
这本书是英文版《Trustworthy Online Controlled Experiments: A Practical Guide to A/B Testing》的中译本。
原书作者Ron Kohavi被业界尊为在线实验“教父”,目前在Airbnb担任副总裁和技术院士,另外两位作者也分别是Google、Linkedin的数据科学家。
这本书围绕线上对照实验(A/B测试),讲解了实验前后要注意的方方面面,被广大互联网从业人员誉为A/B测试领域的“圣经”。
去年5月上市之后,这本书在豆瓣、Amazon等处的评分都在9分(满分10分)或4.5分(满分5分)以上。现在中译本上市,翻译团队也是来自Airbnb、Uber、腾讯等公司的数据专家。
十五花了几天时间阅读了大部分章节,结合我的一些想法,聊一聊书中我觉得比较有意思的案例和观点:
这么些年下来有一个感觉,你说掌握大量统计学知识对于策略产品经理来说重要吗?
重要,但也没那么重要,因为随着分工越来越细,组织越来越成熟,许多统计学相关的逻辑(如计算显著性、置信区间等)都内化在了一些测试平台、中台当中。
这些数学的东西,是最容易被工具化、被机器替代的。
但有一些事情,是必须人来做的,比如设计实验,而且是设计低成本的实验。
这个事情很重要,因为实验的成功率往往并不高:
在一些已经充分优化的领域,例如Bing和Google,评估显示实验成功的概率大约是10%~20%。
同时平均来说单个实验带来的收益率是有限的:
Bing几百人的关联算法团队每年的任务就是将单个OEC指标提高2%,这2%由当年发布给用户的所有对照实验的实验效应相加而成(每年运行上千个实验)。
所以如果你每个实验成本都很高,成功率低,收益有限,那我想你的策略很难排得上优先级。
这里举书中的两个例子,来看看低成本的实验是如何设计的:
第一个例子是一个电商公司的例子(来自书中第2章的一个虚构案例)。
有一天这家公司的市场营销部门打算做一个活动,邮件发放一批促销优惠券来提高销量。
但因为这家公司之前从来没有发放过优惠券,所以优惠券系统是不存在的,也就意味着做这个活动会在结账页面新增输入框用来输入优惠码。
公司担心在结账页面增加优惠券输入框会降低营收,即使没有优惠券,仅仅因为看到这一栏也会拖慢用户的结账速度,并导致用户开始搜索优惠券,甚至放弃结账。
这些担心不是毫无根据的,因为其他公司的过往案例显示:

有增加优惠券后营收流失的情况,也有移除了优惠券后产生正面影响的情况。
不过其他公司的情况,未必能够说服市场营销部门取消发放优惠券的计划。这里需要更直接的实验结果。
那么作为这家公司的策略产品经理,该如何设计实验评估这里的影响呢?
很显然,先把优惠券系统做出来,再小流量A/B测试的话,这个开发成本就太高了。
这里更简单的做法是,用“伪门法”或“造门法”——就像造一个假门或者在墙上画一个门那样,来看看多少人会试图打开它。
也就是说,并不需要实现一个真正的优惠券系统,而是只需要在结账页面放上一个输入框。不管用户在这里输入什么,系统都会显示“此优惠券不可用”。
这样一来,就可以用很小的开发成本,评估增加优惠券这一改动对营收的负面影响,从而支持市场营销部门的决策。
第二个例子是一个优化网站访问速度的例子(来自书中第5章)
对于搜索引擎来说,响应速度是用户体验中非常重要的一部分。
2012年的一个针对Bing的细致研究显示,每100毫秒的速度提升可以带来0.6%的营收增长。
但到了2015年,95%的搜索请求响应时间都在1秒以内了。
到了这个阶段,每100毫秒的优化难度显然要比过去高出许多,而收益却是未知的。
既然开发成本这么高,有没有办法在不做实际开发的前提下,低成本地评估响应速度提升带来的收益?
这时就有个很机智的做法了,我们可以采取逆向思维:提升速度、缩短响应时间是很难的,但延长响应时间可就简单多了——只需要让代码停顿100毫秒即可。
通过这样的减速实验,我们可以在小部分流量上评估减速带来的损失,从而倒推提速之后带来的收益。
当然这里需要借助一定的关键性假设——局部线性近似假设,即:
该指标(如营收)对性能的变化凸显,在当前值附近可以很好地被线性拟合。这就是一阶泰勒展开的近似,或者说是线性近似。
如图所示,我们可以假设在当前产品性能附近,关键指标与性能呈现的是线性关系,即提速100毫秒带来的收益和减速100毫秒带来的损失是相当的。
这个假设也不难验证:
Bing曾做过一个100毫秒和一个250毫秒的减速实验,而250毫秒实验中数个关键指标的差值,刚好大约是100毫秒实验的2.5倍左右(已考虑置信区间)。
最终减速实验的评估结果显示,由于Bing的营收绝对值已经很高,因此4毫秒的提升收益就足以覆盖一个工程师一年的成本,这样的结果有助于帮助公司决策要不要投入工程师优化网站性能。
而且减速实验的价值不止于此,我们常常会遇到产品新功能造成响应时间变慢的情况(例如展示更多搜索结果、提供更多交互元素等),这种不做任何产品改动、单纯的减速实验也能把减速带来的影响剥离出来,与产品改动带来的收益相比较,从而为新功能的权衡取舍提供决策依据。

策略产品经理还有一个重要的能力,是提出合适的指标来评估业务状况与实验效果。
虽然说读者们所处的行业五花八门,有各自的指标体系,不过在指标这一块有些坑倒是相通的。
一个是单一的、容易操纵的指标,比如书中的这几个例子:
一个公司给中央仓库的备用零件管理者颁发奖金,以奖励(他)保持低库存量。但其结果是,仓库里没有必要的备用零件,公司不得不停止运营以等待零件下单后到货。
Amazon搭建了一套电子邮件系统可以用来发送促销活动邮件,最初的实验指标是邮件推荐策略带来的点击所创造的营收;但是这样的指标随着邮件数量增加而单调递增,更多的促销和更多的邮件就一定会增加营收,这导致了垃圾邮件骚扰用户的状况。
关于如何在实验中设计好的综合评估标准(OEC),可以参考第7章。
还有一个是短期指标与长期指标,书中提了这样几个例子:
提价可能会增加短期营收,但是由于用户放弃产品或服务,长期营收会减少。
在搜索引擎上显示糟糕的搜索结果会导致用户再次搜索,搜索份额在短期内会增加,但是随着用户切换到更好的搜索引擎,搜索份额从长期来看会减少。
展示更多广告(包括更多质量较差的广告)可以在短期内增加广告点击和营收,但从长期来看却会因为广告点击甚至搜索的减少而造成营收的减少。
关于这方面的现象解释和解决方案,可以参考第23章。
除此以外,这本书在第6章从整体上介绍了指标体系,包括业务的北极星指标(目标指标)、代理指标(驱动指标)以及负向指标(护栏指标)等,建议可以在设计实验之前一读。
对于大公司的成熟方法,不要生搬硬套。
字节一向是国内A/B实验驱动的标杆,上次字节高管杨震原分享也提到了他们的方法:
2016年,字节跳动建立了支持大规模产品实验的A/B测试平台,之后陆续接入抖音、西瓜视频等全线业务,把A/B测试应用在产品命名、交互设计、推荐算法、用户增长、广告优化和市场活动等方方面面的决策上。
目前,字节跳动A/B测试每日新增1500+实验,服务于400多项大大小小的业务,累计做了70多万次实验。
但并不是所有的公司都能像字节一样,有足够多的资源建立起这样的实验体系。
不同阶段的公司,关注的地方不一样,做事方法也会有差异,这样的实验体系也是一点一点逐渐建立起来的。
正如书中提到的那样,即便是大公司,在一开始的时候管理实验的方法也是很粗糙的:
为了管理并行实验,Linkedin、Bing和Google都从手动方法开始:
- 在Linkedin,团队使用 电子邮件协商流量“范围”;
- 在Bing,这由 项目经理管理,他们的办公室通常挤满了人恳求获得实验流量;
- 在Google,首先是通过 电子邮件和即时消息来传递协商的,然后才移交给项目经理。
但是,手动方法无法规模化。因此,随着时间的推移,这三个公司都转向了程序化分配。
最后还是说一下这本书的不足吧:
一个是翻译问题。翻译一般有两种译法,一种更忠实原文,但是读起来更生硬;另一种更偏读者母语,但有可能改变原意。本书采取的是前者,所以读起来总是有一些磕磕绊绊的感觉。
另一个问题是精简得比较厉害,正文一共240页,23章,相当于每章内容只有10页左右;同时参考文献足足有20页,也让这本书更像是论文综述,有非常多的参考资料需要扩展阅读。
尽管如此,瑕不掩瑜,还是强烈建议各位互联网从业人员,尤其是策略产品经理,手头常备一本,作为工具书随时查阅。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/173709.html