CIKM 2022 放榜,10 篇论文详解阿里妈妈广告算法最新进展
阿里妈妈技术团队 稿
近日,第31届国际计算机学会信息与知识管理大会(The 31th ACM International Conference on Information and Knowledge Management, CIKM 2022)论文接收结果公布,阿里妈妈技术团队10篇论文(8篇长文,2篇短文)被录用。本文将通过论文速览为大家介绍在线广告算法最新进展,后续我们将邀请论文作者详细解析论文思路和技术成果,欢迎阅读交流~
阿里妈妈论文概述
▐ Adaptive Domain Interest Network for Multi-domain Recommendation
多场景推荐中的领域兴趣自适应网络
下载 :https://arxiv.org/abs/2206.09672
摘要 :在工业推荐系统中通常需要为不同的业务场景提供推荐服务。在召回阶段,从全库中选出的topK个优质商品也应当针对不同场景进行各种调整。以阿里巴巴展示广告系统为例,不同场景下淘宝用户交互状态多种多样,同时广告主在不同场景下指定的出价也存在较大差异。传统的方法通常分别为每个场景训练模型,忽略了用户和商品的跨场景关联关系;或是混合所有样本并维护一个共享模型,但这使得模型很难捕捉场景之间的显著差异。
在本文中,我们提出了一种领域兴趣自适应网络(ADIN),自适应地处理跨场景的共性和差异性。该网络在训练时能够充分利用多场景的数据,并在推理过程中通过为不同的业务场景提供不同的 topK 商品候选集,以提高每个业务场景的收入。具体而言,我们提出的 ADIN 通过共享网络和私有网络对各个场景的共性和多样性分别进行建模。此外,我们使用场景感知的批标准化并设计场景兴趣适应层以实现特征级别的领域自适应。最后,我们使用一种自监督训练策略以捕获标签级别的跨域关联关系。ADIN 已在阿里妈妈展示广告系统中部署上线,并获得 1.8% 的广告收入增长。
▐ Approximate Nearest Neighbor Search under Neural Similarity Metric for Large-Scale Recommendation
大规模推荐中基于模型打分的近似近邻检索算法
下载 :https://arxiv.org/pdf/2202.10226
摘要 :近年来,学术界及工业界已全面进入到模型召回的研究与应用阶段。目前,业界主流的模型召回解决思路为向量检索:即将用户-物品偏好定义为其特征表示之间的距离,然后基于特征的近似最近邻 (ANN) 搜索来从大规模候选集中高效检索用户感兴趣的物品。但这类方法会使模型能力受到较强的限制,为了突破模型结构的束缚,一些同时建模索引结构与模型的一段式召回方案被提出。其中,以阿里妈妈展示广告团队此前提出的 TDM 系列算法为代表,通过显式建模索引结构来提供高效的剪枝能力,减少在线打分量进而承载复杂模型,打开了召回精度的天花板。但是,类似 TDM 的一段式解决方案,在具备高精度召回能力的同时,由于索引结构与模型训练的强耦合,导致离在线链路过于厚重,对维护、迭代以及快速的业务支持带来了比较大的挑战。
在本文中,我们提出了一种将 ANN 搜索扩展到包括深度神经网络在内的任意度量函数的新方法。其主要思想是在由所有候选集构成的相似度图中使用度量函数执行贪心游走。为了解决图构建过程中使用的相似度量函数和模型检索时的用户-物品度量函数之间的不一致问题,我们提出了一种可插拔的对抗训练任务,以确保具有任意度量函数的图搜索能够达到相当高的精度。在开源和行业数据集中的实验结果证明了我们方法的有效性。目前该方法已在阿里妈妈展示广告业务中全量上线应用,成功支持了双十一大促,并带来可观的广告收入增长。此外,本文还总结了我们在部署方面的详细经验,欢迎阅读交流。
▐ Control-based Bidding for Mobile Livestreaming Ads with Exposure Guarantee
直播广告中基于控制竞价的合约保量算法
摘要 :直播广告正在成为品牌推广和产品营销的流行方式。然而,在动态的广告投放环境下,大量广告主由于缺乏广告曝光量的保障而达不到想要的投放效果。在本文中,我们提出一种基于竞价的移动端直播广告投放算法,该算法可以保障广告的基本投放效果,并为广告主提供多种营销目标下的竞价策略。通过将该问题建模为在线整数规划并应用原始对偶理论,我们可以求解最优对偶变量并从中推导出广告竞价策略。为了初始化对偶变量,我们采用深度神经网络获取对偶变量与动态广告投放环境之间的复合关系。进一步地,为了在线调控对偶变量,我们提出了一种基于广告投放表现实时反馈和约束下的竞价控制算法。在大规模真实工业数据集上的实验证明了我们的竞价算法在保障广告投放约束和优化广告营销目标两方面的有效性。
▐ Graph-based Weakly Supervised Framework for Semantic Relevance Learning in E-commerce
基于图的电商语义相关性弱监督学习框架
摘要 :商品检索是在线电商系统的基础,需要快速准确地找到用户需要的产品。相关性是检索过程的一个重要考量因素,其作用是避免显示与检索意图不匹配的产品以优化用户体验。由于用户搜索字段和产品标题间的分布偏差,语义相关的文本可能存在很大的词汇差异。因此,衡量语义相关性是十分必要的。当前,若干难题限制了语义相关性学习的性能,其中包括场景数据的长尾分布以及高质量标注数据的匮乏等。近期的工作试图使用较容易获取的用户交互数据进行相关性学习,而部分低质量数据很容易误导模型,导致语义建模不充分。因此,在相关性学习中利用用户交互数据是有价值但也具有挑战性的。本文中,我们首先提出弱监督对比学习框架,专注于如何从用户交互信息中构建有效的语义监督并生成合理的数据表示。与之前仅使用点击或购买等显式信息的方法不同,我们利用用户交互信息异构图中包含的拓扑结构信息设计了语义感知的数据构建策略。此外,我们提出了多项适用于电商场景的对比学习策略,通过针对性地改进数据增强方法和训练目标来有效提高数据表示的质量。对于相关性计算,我们提出了一种结合微调与迁移学习的混合计算方法,进一步消除了分布偏差带来的负面影响,保证了模型的语义匹配能力。广泛的实验和分析表明,所提出的方法在相关性学习中具有良好的表现。该模型已经部署上线,在线评估进一步验证了方法有效性和高效性。
▐ Hierarchically Constrained Adaptive Ad Exposure in Feeds
分层约束下的信息流广告动态展现
摘要 :信息流平台会向用户展现自然内容和商业化内容(广告)的混合结果。通常广告内容会被限定在固定坑位展现,但由于忽略了用户的个性化偏好,此类静态广告展现策略通常比较低效。近年来,动态广告展现策略逐渐受到关注。然而,现有的动态广告展现方法通常存在以下几个问题:1)只考虑单次请求建模,而未考虑平台侧多次请求下的累积效果,会导致展现策略陷入局部最优;2)忽视了广告拍卖机制性质要求,可能会导致广告主竞价的混乱;3)由于复杂度高而难以被部署在大规模平台上。在本文中,我们关注广告商业化率和坑位约束下的信息流平台整体效果优化,并将其建模为一个动态背包问题。为有效解决这个问题,我们提出了分层约束下的动态广告展现方法(简称 HCA2E)。本文阐述了该方法对于平台效果优化的近似最优性,具备平台所需的拍卖机制性质、计算高效性和效果稳定性等。通过在淘宝平台上的离线和在线实验验证了 HCA2E 的效果显著优于现有方法。目前 HCA2E 已在淘宝平台部署上线,每天服务海量用户。
▐ KEEP: An Industrial Pretraining Framework for Online Recommendation via Knowledge Extraction and Plugging
KEEP:基于预训练的工业级知识抽取和融合推荐算法
摘要 :工业推荐系统的展现结果通常是一个包含来自不同推荐子系统结果的混合集合。在实践中,为了避免不同子系统之间数据的干扰,每个子系统通常都使用自己的反馈数据进行模型训练。然而这种数据的利用方式可能会加剧数据稀疏问题从而影响模型的效果。为了缓解这个问题,我们尝试从包含全场景全生命周期数据的super-domain中进行预训练并提取知识,然后利用提取到的知识进一步帮助下游任务的模型进行预估。为此,我们提出了一种新的Knowledge Extraction and Plugging (KEEP) 框架,KEEP是一个两阶段过程,分别对应于两个模块: 1) 在super-domain上进行有监督预训练的知识提取模块;2) 将提取的知识融合到下游模型中的plug-in network。KEEP框架可以有效的将预训练模型应用于采用online learning增量训练的大规模工业级推荐系统。此外,我们也为KEEP设计了一种高效的线上服务方法,并介绍了我们在大规模工业系统中布署KEEP的实践经验。在真实数据集上进行的实验证明了KEEP的有效性。目前,KEEP已全量部署在阿里妈妈在线展示广告系统中,并带来显著的业务收益。
▐ STARDOM: Semantic Aware Deep Hierarchical Forecasting Model for Search Traffic Prediction
STARDOM:语义感知深度层次时序预估模型
摘要 :本文聚焦电商领域中保量搜索广告的流量预测问题。消费者通过 query 在电商平台表达他们的搜索意图,GSA 是一种保量广告,需要预测每个 query 的流量,并据此向广告主愿意购买的搜索词收费。我们使用时间序列预测的方法求解流量预估问题,与现有时间序列预测不同的是,query 具有语义信息,语义信息相似的 query 往往具有类似形式的时间序列。这些时间序列可以根据所属的品牌或类目等信息,形成一种层次结构。为充分挖掘这些信息,我们提出了语义感知深度层次时序预估模型(STARDOM),挖掘 query 的语义信息和形成的层次结构。为了挖掘层次结构,我们提出了校准学习模块。它利用深度学习方法自动学习在隐空间学习层次中各个时间序列之间的校准关系,并利用蒸馏校准损失函数进行层次一致性约束。为进一步挖掘语义信息,我们提出了语义表示模块,生成每个序列语义感知的序列表征。广泛的实验验证了该方法的有效性。
▐ Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Models
深度点击率预估模型的过拟合现象剖析
摘要 :深度学习的应用极大地提升了推荐模型的表现,然而对于推荐系统中深度模型的过拟合现象,学术界和业界关注很少。在本文中,我们以推荐系统的关键组件——点击率(CTR)模型——为例来研究过拟合现象。我们观察到CTR模型的过拟合现象非常特殊:在第一个 epoch 结束后,模型急剧过拟合,测试集效果急剧下降,我们称这种现象为“one epoch现象”。为了解释 one epoch 现象,我们在工业生产数据集上进行了大量实验。结果显示 Embedding & MLP 模型结构、模型的快速收敛(例如强优化器和较大学习率)以及严重数据稀疏性是导致 one epoch 现象的关键因素。并且令人惊讶的是模型通常在一个 epoch 训练后就达到了最佳性能,这可以解释为什么许多在线工业推荐系统只对数据进行一次训练。最后,我们还提出了一个假设来解释 one epoch 现象,并提供了一些验证实验。希望该项工作能够使相关领域的同学关注并进一步研究深度推荐模型的过拟合现象,也期待后续研究提供一种可行的方法,可以实现训练多个 epoch 并且提高模型表现。
▐ AdaSparse: Learning Adaptively Sparse Structures for Multi-Domain Click-Through Rate Prediction (短文)
AdaSparse:基于自适应稀疏结构的多场景CTR预估
下载 :https://arxiv.org/pdf/2206.13108.pdf
摘要 :多场景点击率预估是推荐和广告系统中的一项重要技术。近些年的研究证明学习一个统一的模型来服务多个场景能有效地提升整体效果。然而,在有限的训练数据下提升跨场景的泛化能力目前仍然具有挑战性,而且在工业场景部署这些解决方案也因计算复杂性变得较为困难。本文我们提出了一种基于自适应稀疏结构的多场景 CTR 预估方法:AdaSparse。该方法为每个场景学习一种自适应稀疏结构,以更低的计算成本实现更好的跨场景泛化能力。我们引入神经元级权重因子来衡量不同神经元对不同场景的重要性,并在此基础上为每个场景裁剪掉冗余的神经元来提升泛化能力,从而为每个场景获取一个自适应子网络。此外,我们还新增了稀疏正则项来灵活控制学习的稀疏率,以便为每个场景自动学习最佳稀疏网络。离线和在线实验均证明了 AdaSparse 用于多场景CTR建模的有效性。该模型已在阿里妈妈大外投业务上全量上线,成功支持了如618、天猫双11、年货节等大促业务降本增效工作。
▐ Visual Encoding and Debiasing for CTR Prediction (短文)
面向点击率预估任务的图像表征学习和除偏框架
下载 :https://arxiv.org/abs/2205.04168
摘要 :在图像搜索广告系统中,图像理解发挥着重要的作用,图像表征的表达能力直接影响点击率预估的效果。在以往的图搜广告系统中,图像表征往往存在表征粒度粗或样本选择偏差的问题,制约了预估任务在完整商品空间上的排序能力。针对上述问题,本文提出一种基于对比学习的图像表征学习框架,该框架基于点击样本训练表征模型获得细粒度的图像表征。在该框架中,为了缓解由用户行为数据带来的样本选择偏差,我们首先使用图像自监督技术构造不依赖行为数据的对比学习样本,以得到无偏表征;其次,我们在点击率预估模型中嵌入除偏网络,通过除偏网络和预估任务的联合学习对表征进行细粒度除偏。实验表明,本文提出的图像表征学习框架相比基线在预测结果的准确性和无偏性上获得明显提升。