Fork me on GitHub

​广告场景下双边市场的实验设计

导读 双边市场是一个连接两个群体的平台,在经济学中,我们称之为供给方和需求方。由于需求方和供给方的行为存在彼此影响(即双边网络效应),导致在 AB 测试中,实验组和对照组很难满足独立性的假设,因此如何设计实验是一个比较大的挑战。本次分享将从腾讯广告的实践出发,分享如何进行双边市场的实验设计。

全文目录:

  1. 双边市场
  2. 广告流量四表格实验
  3. 解决方法
  4. Counterfactual interleaving 实验
  5. 列联表联合采样
  6. 双边市场模拟系统

分享嘉宾|朱志华 腾讯 数据科学家
编辑整理|王鑫民 同济大学
出品社区|DataFun


01 双边市场

图片

互联网场景下,绝大多数的平台都是某种意义下的双边市场。典型的双边市场有出行平台,电商平台,婚恋平台以及广告平台等。双边网络中,供给方彼此存在竞争,需求方内部存在竞争,同时需求方的变化会引起供给方的变化,影响相互交织形成复杂的竞争环境。

图片

一般双边市场下的实验设计,可以通过地域随机化、类目随机化或时间随机化的方式,将竞争隔离在地域、类目内部或某段时间内。但是在广告平台中,常规按照地域和时间做实验的方法都不太可行。

  • 广告投放的目标客户大部分不存在地域限制。现在的广告场景一般为广告通投,系统会自动选择最适合投放的用户,具有地域属性的广告,如 LBS ,占比非常小。
  • 广告通投大盘所有用户,不存在所谓类目的概念可以把这种竞争进行隔离。
  • 广告的效果存在很强的跨时间段影响。时间随机化需满足携带效应比较弱的重要前提,但在广告场景下,具有非常强的马太效应,如一个广告 10 点获得一定量的曝光,会极大地影响它在 11 点的曝光量,因此无法通过时间分片的方式获得有效的结论。

02 广告流量四表格实验

图片

一种解决抢夺的思路:将大盘的流量与广告分别考虑成两个样本空间,并将流量和广告均分成两组,策略只在流量和广告都处于实验组时才生效。我们可以观察 AD1 在 UV1 和 UV2 中的表现来判断策略的效果,但是在流量 UV1 中,AD1 由于有策略,可能会抢夺 AD2 的效果。因此直接比较 AD1 在两份流量的效果得到的结论不准确。由于 UV2 中是全部没有策略的,因此 AD2 在 UV2 中不会被抢夺,可以用来作为基准值。

注:****蓝色格子代表接受策略处理,其余为不接受策略处理。

理想情况

图片

实验前,两股流量两份广告,假设每份25个曝光。在流量 UV1中AD1 加入策略,假设理想情况下曝光增加 3 个,提升 12%。

红色数字代表提升,绿色数据代表抢夺

只有抢夺没有外溢

图片

实际情况中,由于抢夺效应的影响,AD1 曝光增加,AD2 就一定会减少,如图中,AD1 中 UV1 为 30,AD2 中 UV1 为 23 可能才是真实的效果,AD1UV1 中,3 代表策略调整带来的提升,2 代表抢夺效应带来的增长,因此使用 UV1AD1 和 UV1AD2 比较策略效果是不合理的。

实际中发生外溢效果的情况

图片

更复杂的情况是,AD1UV1 效果变好导致 AD1UV2 的效果同样变好,流量可能由 25 增加至 26,进而产生连带反应,最终 AD1UV2 对 AD2UV2 也发生抢夺的效果,因此最终比较 AD1UV1 和 AD2UV2 得到的效果也非常具有迷惑性。

一个流量下不同的广告会发生抢夺,一个广告在不同的流量之间会产生外溢。实际大部分的双边市场中,当存在传递效应或抢夺效应严重时,广告流量四表格实验一般无法得到确切效果。

03 解决方法

图片

为了避免传递效应和抢夺,将广告流量同时分组,策略只在实验策略实验广告上生效。最大的难点在于实际工程挑战巨大,广告平台逻辑非常复杂,要做到广告在不同流量下隔离彼此的影响非常困难。同时,此设计方案也存在对于小广告数据稀疏,实验组和对照组数据不能贡献,实验状态下的效果难以代表真正全量效果,效率低,以及实验组和对照组难以完全独立的问题。

图片

一个简单粗暴的方法,将实验分两部分,一部分 50% 流量召回 50% 的广告,另外 50% 的对照流量召回 50% 对照广告。此做法隔绝传递效应和抢夺的影响,但是实际中,在实验流量和对照流量都只能召回原有广告的一半,会造成巨大的收入损失。

双边市场中具有强传导性,供给方和需求方数量增加,100% 用户和 100% 卖家的电商平台相较于 1% 用户 1% 卖家的电商平台活跃度会急剧上升,因此直接隔离的做法,实用效果、严谨性和客观性上都是不合理的。

图片

为了降低前种方法的伤害,可能有一些改进。将流量和广告都拆分成三份:p% 实验 + p% 对照 + (100-2p)% 空白,实验流量出实验 + 空白广告,对照流量出对照 + 空白广告,空白流量出所有广告,策略在实验流量和空白流量中的实验广告生效。

但是此方法仍然存在不合理,通过空白广告的填充,虽然减小了实验流量和对照流量的收入损失,但是由于实验广告和对照广告仍会在空白流量中竞争,仍存在抢夺的可能,进而对对照流量对照广告产生外溢影响,导致评估结果有偏差。

图片

一种纯工程角度的方法,将广告进行复制,原始广告和复制广告进行流量隔离,分别使用不同的策略。最终比较每一个原始广告和复制广告的差别,得到策略的整体效果。此做法对收入不会产生影响,同时也完全不会影响到广告主的感受。

实验缺陷:

  • 工程挑战大:线上系统一般模块较多,策略和模型比较复杂,实际实现中较难做到分身广告和原始广告表现基本一致;
  • 广告数量膨胀:给检索带来很大的性能压力,只能支持少数实验;
  • 很难做到实验组和对照组独立:广告如果在实验组表现好,对照组不好,整体效果也不好的情况下,广告主会关停广告。因此很难真的做到实验组和对照组独立。

广告场景下,当进行改变平台生态的较大调整时,可以采用此实验方法有效获得客观结果。

04 Counterfactual interleaving 实验

下面介绍** Facebook 的一套框架。**

图片

实验设计分两大类: between subject design(一个样本只接受一种处理)和within subject design(一个样本会接受两种处理) 。between subject design 的核心在于做到样本之间的独立,该如何进行分组处理;within subject design的核心在于如何处理 order effect 对评估的影响。Facebook 框架下的 Counterfactual interleaving 实验设计本质是 within subject design,对于一个请求通过两种算法召回广告,将全量广告分别使用实验策略和对照策略进行排序,实验组广告使用实验策略生成的排名,对照组广告使用对照策略生成的排名,最后将排名合并。

图片

Counterfactual interleaving 的实验方法在广告场景下双边市场的实验中存在三方面的缺陷。

1. 康多塞悖论(Condorcet paradox),对于 Counterfactual interleaving 的实验机制来说,当有两个策略并行时,意味着就存在三种排序方式,如何进行融合将会是大问题。

2. Counterfactual interleaving 的实验本质上是一种有损的实验方式。如下图,对照组的排序为 ad2>ad1>ad3,实验组的排序为 ad1>ad3>ad2,融合时 ad2 按照 test 排序位列第 3,ad1 按照 control 排序位列第 2,最终曝光的是 ad3,但是 ad3 的价值不管实验组还是对照组都不是最高的,所以这就导致了大盘的损失。这种冲突的概率随着实验组和对照组的流量都到 50% 时,会达到最大。

图片

3. 状态依赖带来污染

Counterfactual interleaving 的核心假设:对于实验广告,由于广告在融合之后的序近似等于在实验策略下的序,因此认为观察到的广告表现等价于实验策略全量情况下的广告表现。

但是实际情况下,一方面,广告系统存在反馈的自循环,由于存在模型不断训练迭代、调价环节等因素,广告的排序除了受策略影响外,还受广告自身的过去表现数据影响。同时广告在队列中的序也受与其竞争的其他广告表现的影响;另一方面,由于排序中的对照广告不是按实验策略出的,其实际表现(如消耗、GMV 等)也与「按实验策略胜出」的表现有所差异,这种实际表现的差异又会影响对照策略在实验中的排序,进而影响了实验广告在实验策略中的排序情况。

实验受到广告自身状态依赖的问题影响,当策略会影响广告的状态,这种实验方式评估的结果就可能有偏;实际上绝大多数的策略都会带来这种状态污染的问题。Counter-factual 实验中,观察到实验组广告和对照组广告在实验下,样本量在一天中从相近逐渐扩大到偏低 30%,已经出现了比较大的 SRM 问题,因此这种实验设计得到的结论是十分存疑的。在 feedback loop 不强场景下Counterfactual interleaving 实验有一定的适用性,但是这种状态污染在所有的双边市场或者推荐系统中都是普遍存在的,因此其实际上的使用场景非常有限。

05 列联表联合采样

接下来介绍腾讯广告场景下的实验方法:列联表联合采样,它是对广告流量四表格实验的泛化和升级。

图片

问题: 在四格表设计中,我们有 4 个参数,即无策略的基准效果、策略的提升效果、抢夺效应和外溢效应,但是只有 4 个样本,导致无法拟合。在外溢影响比较小的双边市场场景下,如出行平台,四格表实验可以适用。

思路: 抢夺效应依赖于流量中策略生效的广告比例,外溢效应依赖于广告中策略生效的流量比例。为了有更多的样本空间,我们可以将 22 推广成 mn 的设计,采用上三角采样的方式进行实验。

如下图,实验中将流量分成 5 份,大盘广告分成 6 份。第一份广告,所有的流量下都会生效实验策略;第二份广告,80% 流量下生效策略,20% 流量不生效策略,以此类推。

方案优点

图片

估计抢夺&外溢对实验效果的影响:根据同一组广告在不同流量下所占的流量曝光比例,得到实验对对照在不同竞争环境下的抢夺效应;每个广告策略生效的比例都不一样,其不生效部分的观测差异可以用来监测是否存在策略外溢效果。

同时具备广告实验和流量实验的属性:横向上该实验本质是一个广告实验,可以观察所有不同的广告之间广告主的行为变化和广告维度的指标变化,包括广告主出价、成本、ROI 等;纵向上可观察各部分流量下大盘核心指标(如消耗等)的效果。

实验数据建模评估

广告分桶&流量分桶下单元格的表现受三方面影响共同决定:是否接受策略处理、单元格所处流量环境广告受处理比例、广告本身受处理的流量比例。

图片

构造线性模型拟合结果,量化策略处理及各种效应对实验结果的影响。 等于 1 表示接受处理, 表示第 i 份广告受处理的比例; 表示第 j 份流量受处理的比例,模型对 取 log 是为了方便计算提升率。

在实际实验情况下,影响是非常复杂的,同时还会产生协同和竞争。α 表示策略处理影响的拟合值,β’ 表示外溢影响的拟合值,γ’ 表示抢夺影响的拟合值,β 表示协同影响的拟合值,γ 表示竞争影响的拟合值。

协同 :假设一个手机生产厂商采用了一种新技术,这个新技术在四个国家采用和只在三个国家采用的新技术,产生的效果也是不一样的。因为采用这种新技术的国家越多,就可以把技术成本进行更大的摊薄,更容易产生规模效应,所以本质上,策略处理的内部会产生协同效应。竞争:流量分桶下的广告之间,策略处理的广告不仅存在对不接受策略处理广告的抢夺,策略处理的广告内部也存在竞争效应。

优势及缺点

优点:

  1. 解决了实验彼此存在抢夺问题;
  2. 解决了流量实验下无法观测广告主行为的问题;
  3. 避免了双边市场下的供给端实验和需求端实验的左右互搏问题,可以将策略对整体的影响统一起来。

缺点:

  1. 在评估时假设了抢夺和外溢都是线性的可加的,这个在实际中可能不成立;
  2. 要求对供给端和需求端的随机化,在很多业务场景下存在样本数量较少且样本之间差异大,因此实验的灵敏性也是一个大问题,这也是所有双边市场的问题;
  3. 模型的理解成本比较高,不是很直观。

图片

06 双边市场模拟系统

如何在实验设计上线之前验证其科学性?

图片

腾讯基于广告系统全链路进行抽象和简化,设计了一套双边市场模拟系统,剥离业务逻辑,只保留核心逻辑,如广告中只保留最基本的召回、排序、模型预估能力,在广告曝光之后,再进行数据的反馈形成 feedback loop。 这套模拟系统不仅可以是实现实验的模拟,同时也可以有效评估实验方法,当进行很大的机制升级时,无法线上实验,可以通过模拟系统从机制上验证改动的合理性。

举个例子,1000 万请求首先用 A 策略去跑一遍,得到这 1000 万请求大盘的整体收益,然后用 B 策略跑一遍,得到 A 和 B 之间差异大小,即 B 减 A 的全量差异。然后把这 1000 万请求再发一遍,其中 500 万的请求用前面提到的各种实验设计进行测试,收集数据形成数据反馈,评估出来收益有多少,以及真实收益相较于全量的 A 和全量 B 的之间 gap 大小。

这就是一个非常客观的评估方法,可以实现减小风险、量化评估、快速迭代的目标。如果通过模拟机制验证实验方法有问题,那么它一定有问题。因为在最简单的双边市场下实验都不能通过,何况是复杂的商品市场。

image.png


本文地址:https://www.6aiq.com/article/1676213536875
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出