归因分析:淘宝直播数据助理及其价值研究
文章作者:刘士博、孙艳、丁建栋
作者公司:阿里巴巴
出品平台:DataFunTalk
导读: 近年来,直播带货成为一种新的流行业态。主播在直播间与线上消费者实时互动,这极大的提高了信息交流的效率。在这种实时性极强的场景,主播对直播间实时信息的使用有可显著影响直播间的带货情况。
为了让主播实时、准确的掌握直播间的信息,我们为淘系的主播们提供了一款智能数据助理,帮助他们在直播中和下播后便捷、准确、全面的查看和分析数据,进而做出决策和行动。
当主播们每天高频使用智能数据助理之后,我们通过线上AB实验并结合量化分析方法证明了数据 > 决策 > 行动 > 数据这一闭环的存在,验证了数据与行动之间的因果,同时,证明了数据产品的价值。
01 背景
1. 淘宝直播
现如今电商直播带货已经成为商家销售的非常流行且重要的渠道,而其所主要依赖的就是各个直播平台,淘宝直播作为其中的领军者,相信大家都有用过、或者有所了解,淘宝直播每天的开播数高达10万多场。在直播的业务场景中,淘宝主播主要会做以下的事情:
综上,主播在整个直播业务流程里面要做的事情非常多,所以主播对于平台有了一些期望和诉求,希望通过丰富平台的能力,帮助他们更好的带货和成长。
从直播流程介绍中我们不难发现有很环节都是需要数据支撑的,比如主播怎么更快选到合适的商品,直播中如何更好的进行策略的调整、怎么更好的互动,下播后怎么提高复盘的质量和效果,下场直播哪些需要改进、哪些需要保持等等,接下来一起看下主播有哪些核心诉求以及其对应的解决方案。
2. 主播诉求
- 在线直播过程中能够实时的调整直播策略,提升直播质量,提升C端用户体验。
- 下播后,能够及时的复盘本场整体表现,直播能力、带货能力、互动能力、粉丝粘性、流量运营等是否满足预期,下次开播需要做哪些策略调整与准备。
- 希望有数据可以帮助了解自己的粉丝群体,以便于更好的做粉丝运营。
- 希望有数据可以辅助主播更好的成长,比如自己在行业中排名如何,竞对有哪些优点可以学习,自己哪些短板需要改进等(知己知彼百战不殆)
3. 解决方案
基于主播诉求,达摩院数据智能团队和淘宝直播团队制定了如下解决方案:
- 提供实时直播场次报告,通过不同维度、不同展现形式让主播能够在直播过程中实时查看全面的核心场次数据,并且同时支持PC和APP端查看。
- 提供下播报告,提供整个场次完整的数据内容,相比实时场次报告更是多了智能决策能力、流量运营汇总等能力
- 提供数据机器人,以对话的方式,方便主播及时查看直播诊断、行业排名等数据,给出成长建议,帮助主播成长
- 提供文本挖掘的能力,对于直播中评论文本进行挖掘聚类,为主播提供及时的C端用户心声(体现在场次报告中)
- 决策智能能力,识别直播过程中的关键时间点,基于此做多模态归因分析,将多模态识别结果及直播快照在离线场次报告的趋势图模块进行展示。
- 针对头部主播,提供主播大屏,方便运营团队人员实时查看直播核心数据,特别是在促销和大促时,便于团队多人协作、及时作出合理决策。
- 提供场次对比能力,允许主播快速多维对比历史多场表现,总结直播经验,提升复盘效率。
以上解决方案对应的便是智能数据助理的产品能力,其中包含了场次报告、主播大屏、场次对比、数据机器人,以上产品具备PC+APP两种形态展示,数据同时支持直播中和下播后。接下来我们一起看下各个产品形态及其核心能力。
02 产品
1. 场次报告
首先我们看PC端,主播在直播过程中,用户点击淘宝直播中控台推流界面右下角的【查看详细】按钮,就可以跳到实时场次报告界面,以便主播实时的了解直播间情况,实时做出合理决策。
下播后,主播在淘宝直播中控台我的直播页里,可以看到历史开播场次,点击每个场次右边的【数据详情】也会跳转到离线场次报告页面(也成为下播报告),主播可以基于整场直播的数据做离线复盘。
在场次报告的右侧可以看到几个按钮,最显眼的就是PK场次对比、数据大屏,这两个按钮点击后可以分别跳转到场次对比和主播数据大屏页面中,那除此之外还有另外四个目录:总览、趋势、流量、商品,分别链接到数据总览、趋势分析(集成多模态识别归因能力)、流量运营、商品分析四大功能模块,下面逐个解说下:
核心汇总数据: 这里又分访问、转化、成交三部分,相关指标都做了粉丝占比数据解析。
- 访问主要包括观看次数、浏览次数、在线人数、观看时长等指标
- 转化主要包括新增粉丝数、商品引导PV\UV、点击率等指标
- 成交主要包括引导成交笔数、人数、金额,预售下定金额、尾款金额等指标
实时趋势: 主要分为流量波动、粉丝转化、成交运营三种类型核心指标的趋势分析。
- 目前我们做的是每5分钟打一个点,数据实时更新,让主播可以直观的看到直播过程中数据的趋势变化,以辅助其做出合理的决策;
- 该模块中集成了多模态识别归因能力,根据相关指标趋势的波峰波谷时间点通过算法模型计算出异常点位,然后配合直播快照、商品上下架、互动数据及多模态能力识别出在某个异常点是因为什么原因导致的该指标异常,同时将直播回放定位到该时间点点位,大大提升主播发现复盘改进提升的效率。
**流量运营:**主要包括实时流量运营【趋势图】、离线分渠道流量运营占比两大功能。
- 实时流量运营主要是进入到直播间的流量来源趋势图,目前包含关注、推荐、广告、店铺、搜索等13种流量来源,主播可以根据每种流量来源的趋势数据进行实时流量运营及决策
- 分渠道流量运营主播可以判断场次整体的流量分布是否符合预期,有问题可以快速发现
**商品分析:**该模块主要展示直播间每个上架商品的引导、成交情况,核心指标包括商品点击次数、人数,商品成交金额、件数,商品预售下定金额、尾款金额等,这里主播可以看到每个商品的实时数据情况,以便于其实时调整播报顺序及策略。
以上是PC版,场次报告同时也提供了APP端展示形式,更加方便主播的使用,接下来我们详细看下:
在APP端,主播开播推流后,在手机【推流界面左滑】就可以进入场次报告中,这里是通过浮层的形式进行展现,主播看完数据【手指在场次报告页面右滑】就可以回到推流界面,操作非常方便;其展示的数据指标和PC端保持一致,但是由于APP的空间限制,我们只筛选了PC端指标里面的重要指标进行了展示,同时也间接的给主播减压,通过最核心的指标快速决策。
2. 数据大屏
直播数据大屏是头部主播的权益(目前只有V等级4、5的才有权限),数据大屏再促销、大促等关键时间点往往发挥着至关重要的作用,场次报告中有说到,在场次报告PC端的右侧点击【数据大屏】按钮进入到主播数据大屏中,数据大屏是集成在PC端【APP端没有】,相对于场次报告,是一种更酷炫的展现形式,其展示的数据指标也更加聚焦。
这里的功能模块主要包括:核心的三大指标累计观看此时、累计成交金额、新增粉丝数,观众地域排行(和中间的中国地图动态呼应),观众画像指标,粉丝成交占比等等
3. PK场次对比
基于主播开播近期平均表现,划定benchmark,进行客观的直播间场次数据复盘;提供自定义场次对比工具,允许主播快速多维对比任意两场表现,总结直播经验,提升复盘效率;在场次报告PC端的右侧点击【PK场次对比】按钮进入到场次选择页面,主播可以选择历史两场直播,点击确认按钮后进入场次对比页面,
这里主要包含首页5大核心指标(访问用户数、最高在线人数、平均停留时长、新增粉丝数、引导成交金额)的对比,以及其中四类核心指标的对比详情,提供了多种PK展现形式,比如最高在线人数趋势分析PK,引导成交流量转化漏斗PK等等、
4. 数据机器人
数据机器人是APP端的能力,在淘宝主播APP首页,点击【看数据】进入到机器人页面,数据机器人通过对话的形式和主播进行多样的数据互动;
在对话页用户可以问一些,比如直播诊断、直播的核心数据、排位赛日程等资讯信息,另外主播可以输入一些自己想看的指标,比如输入成交,数据机器人可以智能识别主播的问题,并结合以往的历史数据给到主播想要看的数据指标。
数据机器人里还集成了一些像直播诊断的能力,直播诊断可以为主播提供主播能力雷达图,让主播能够直观的看到自己哪些方面在行业里做得比较好,哪些方面还有待提高。还提供全网、同级同类目成交排名等指标让主播了解自己在行业中的排名情况等等。
另外,数据机器人还集成了大促战报的push能力,让参与大促的主播能够及时的了解大促期间的直播相关数据。
5. 产品成果
上面介绍了数据助理的所有产品形态,数据助理产品日常峰值服务75+%的淘系主播,覆盖淘宝直播、闲鱼直播、淘特直播等业务。
数据助理提供了数据查询能力,主播可以查询实时场次数据、核心指标趋势、带货成交数据,以及大屏监控、历史场次数据PK分析;也提供了智能能力,异常点检测、多模归因、直播诊断等能力,帮助主播定位直播过程中的优缺点;还提供了精细化运营能力,比如权益投放、粉丝运营、流量运营等等。精细化运营效果又可以通过直播过程中的实时数据反馈出来,形成数据的闭环,真正实现了数据赋能主播、智能辅助主播决策。
03 数据建设
1. 数据链路
基于早期对于数据助理产品的规划,我们做了详细的数据架构设计、平台调研选型,同时兼顾性能及成本。
- 我们重点针对Lindorm和ADB进行了调研、验证和对比,由于产品特性(多维查询、实时性、灵活性要求比较高)最终选择了ADB进行支持。
- 由于数据助理是直接服务与淘宝主播,所以对于稳定性要求非常高,为了保障产品的高可用,我们做了核心链路【计算、存储、服务】的双链路保障。
- 通过霸下进行拦截恶意攻击流量,降低数据2/3的恶意无效数据访问,大大降低了存储及服务的资源消耗。
- 在其他直播业务有复用需求后,我们也及时的升级了数据链路,提取实时数据中间层,DWS数据同时写入ADB、Lindorm、TT以支持不同直播业务场景的需求,做到了一份数据、一个口径、多场景复用。
2. 数据分层
数据链路中提到了建设直播数据中间层,接下来我们一起详细看下,中间层建设分为数据接入层、数据中间层【DWD、DWS】、业务应用层。
- 数据接入层:主要来源于直播业务数据、集团公共层、达摩院智能数据
- 数据中间层:分为DWD、DWS层、维表、又包含实时数据建设和离线数据建设,以下重点将实时部分、离线数据建设和实时是保持一致的
DWD层重点建设直播间明细层数据,其中包含直播间曝光、点击、观看、互动(评论、点赞、分享、关注等)、商品引导、商品成交、商品预售、直播间文本语义识别、多模归因、关键点识别等数据
DWS层我们主要做了直播间、直播间+商品、直播间+渠道、直播间+来源、直播间+粉丝等直播间相关维度的汇总及趋势数据、同时还包含直播间的多模数据 - 维表:包含了直播业务链路中的各种维度数据,比如直播间、主播、商品、用户、商家、商品类目、渠道、来源等等
- 业务应用:这里主要是中间层数据服务的对象,包括达摩院直播赛道【数据助理、数字人、直播一体机、主播助理】、直播中控台、生意参谋、产品360等等
随着直播业务越来越火,达摩院直播赛道(数据助理、主播助理、虚拟人、直播一体机)以及集团其他直播业务产品线陆续启动,这套数据也得到了很好的复用;之后更是与集团DT团队、淘宝直播数据团队一起搭建了集团内容中间层,基于此也完善了达摩院自己的直播数据中间层。
3. 架构总结
整个数据助理产品数据架构建设,可以以上图作为总结,我们同时支持PC端或者APP端开播后的数据展示,多端保持数据一致性,实时数据下播后以下播报告的形式展现、其他产品形态与此类似,实时离线数据使用同一份、严格保证数据的口径一致。与此同时我们有达摩院的智能能力加持,赋予了数据助理数据产品的智能化特性。
04 业务价值
基于前面介绍的主播诉求,以及针对主播诉求数据助理产品的内容和架构。经统计发现有非常多的主播在直播过程中或下播后,真的是在使用数据助理产品的。那接下来我们想知道主播用了数据助理产品,是不是真的影响到了主播的决策,真的为主播的直播带来了一些价值。所以我们想通过课题实验的方式,进行实验,分析数据,用数据来说明数据助理产品的业务价值。于是我们与清华大学经管学院电子商务实验室的同学和老师一起来实现了课题的内容。
1. 实验过程
① 提出问题
因为数据助理已经提供给主播,所以在不影响主播使用的前提下,我们选择了双十二版本的数据助理实时场次报告的内容来做验证。双十二版本的实时场次报告与之前的版本相比是增加了实时预售信息的,双十二版本的实时预售信息主要体现在这两个地方:第一个是指标总览的成交是可以看到本场次所有预售商品的总的成交情况的;第二部分是在商品分析模块中,每个预售商品都可以实时地查看预售的金额,笔数等指标。
② 实验设计
实验设计部分,我们的实验方案是根据主播帐号尾号随机分组,尾号0、1、3、8的主播在12月1号到12月3号的预售期间进行直播使用数据助理的实时场次报告的时候是可以看到实时预售信息的,而其他尾号的主播在相同的时间进行直播使用数据助理是看不到实时预售信息的。能看到的主播即实验组,看不到的即对照组。如下图所示:
③ 数据分析
a. 基础数据准备
实验结束以后进行了如下的数据分析:
统计发现主播使用数据助理且场次中含有预售商品的实验组直播场次有737场,对照组直播场次有1051场。
对实验组和对照组而进行了主播粉丝数、预售商品数、主播等级、上月播出时长等关键指标的对比分析,发现实验组和对照组在这些指标上的表现是不存在显著差异的。指标的定义和分析结果如下图所示:
又作了进一步的过滤,只关注预售商品销量大于1的直播间。进一步过滤之后,我们又做了以上关键指标的对比分析,确认实验组和对照组在关键指标上不存在显著差异,至此保证两组可比。
具体指标的分析是通过T检验的方式,详细的分析数值如上图所示。这个实验课题分析目前已经完成,且对外发表了:
Y. He et al., “The Sales Data Sells : Effects of Real-Time Sales Analytics on Live Streaming Selling,” in AMCIS, 2021, pp. 1-10.
https://aisel.aisnet.org/amcis2021/data_science_decision_support/data_science_decision_support/12/
b. 主分析-数据助理有效
在保证了实验组和对照组可比之后,我们进行了商品销量的分析。下图圈选部分为预售商品销量的分析结论。Model 1代表的是引入了是否达人,主播等级,还有商品种类等直播间特征的回归分析的结论。Model 2是不考虑直播间以上特征的分析结论。P value都是小于0.01的,P value越小,结果越显著。
另外,我们又做了进一步的鲁棒性校验:在实验组和对照组中,没有使用数据助理的直播重复主分析,发现预售商品销量不存在显著差异。
综上,主分析结论为:实时预售信息的引入显著提高预售商品的销量,提升log(sales) 18.6%。
c. 数据助理为何有效
有了以上分析得出的主结论,主播看到了实施预售信息后是怎样实现预售商品销量的提高的,我们做了以下两个假设:第一个是主播延长预售商品的直播时间。第二个是提高销售效率。
由于无法确切地获得主播对某个商品进行介绍的持续时间,所以我们选择用用户点击某个商品的时间分布区间取时间分布的中间部分,作为主要点击时间的区间,近似模拟商品直播时间。取【X%-Y%】分别为【10%-90%】、【20%-80%】、【30%-70%】、【40%-60%】进行分析,分别对应Model3、Model4、Model5、Model6。
同时定义了销售效率的概念,将销售效率定义为销量除以主要点击时间区间。
对实验组和对照组的数据进行详细分析,对应分析数据如下图所示,得出结论:
- 相比于对照组,实验组预售商品的主要点击时间区间没有显著延长,故不支持假设1;
- 相比于对照组,实验组预售商品的销售效率显著提高,故支持假设2。
更进一步,对实验组和对照组观众在直播间的评论数据做了分析,抽取一些关键词进行比例的分析以及词云的分析,如下图所示,得出如下结论:
- 相比于对照组,实验组中用户对预售的讨论比例更高;
- 相比于对照组,实验组中用户提到缺货信息比例更低;
- 相比于对照组,实验组中用户问题比例更低。
实验组用户评论词云
对照组用户评论词云
d. 数据助理对谁有效
进一步,根据主播粉丝数的分位数,将样本分为三个子集,分别对应粉丝量少、中、多的直播间在每个子集上进行分析,数据如下图所示,分析结论:对中等粉丝量的直播间显著提升预售商品销量,对粉丝数少和多的直播间效果不显著。
数据助理不提供自动刷新功能,若要看最新的数据需要手动刷新,一次手动刷新算一次使用。根据主播一场直播使用智能数据助理次数的中位数,区分深度使用和较少使用智能数据助理的主播进行指标分析,如下图所示,得出以下结论:
直播中主播使用智能数据助理次数较多的直播场次,提供实时预售信息显著提高预售商品销量。
05 感谢
价值验证的整个过程有非常多同学参与其中,在此特别感谢:
- 清华大学经管学院电子商务实验室:王伶俐 博士生、陈国青 教授、郭迅华 教授
- 休斯顿大学:何玉梅 博士后、Yili (Kevin) Hong 教授、Nina Huang 副教授