Fork me on GitHub

个性化海报在爱奇艺视频推荐场景中的实践

爱奇艺技术产品团队

导语

在信息过载的时代中,如何把恰当的内容恰时地呈现给用户,并且让用户快速、准确地看到自己喜欢或需要的内容,对一个视频平台来说是一个非常重要且具挑战的事情。

因此,爱奇艺技术产品团队设计并实现了一套个性化海报生产与分发系统,本文将从整体框架、海报生产、海报分发、业务策略以及场景效果等几个方面,一起看看个性化海报在视频推荐场景中的实践。

背景

个性化推荐是根据用户的兴趣特点和点击或购买行为,向用户推荐用户感兴趣的信息或 商品,最大的优点在于,它能收集用户特征资料并根据用户特征,如兴趣偏好,为用户主动作出个性化的推荐。而在视频平台上,海报则是用户对某一部影片的第一映像,是影片的所有信息缩影。用户看或不看该影片,往往在快速浏览时就有了答案。

Netflix早在2014年开始为相同剧集制作多个海报,并调整文字内容、字体、设计颜色和风格,做了大量的线上推荐实验。并主要得出以下3点结论:

1、海报形式便于用户做决策: 海报承载了更多的信息,用户看海报的时长比看字的时长高四倍,平均花费思考标题的时间只有1.8秒;

2、海报设计的质量非常关键: 画质差会让用户觉得影片low,影响用户对该影片的点击率;

3、海报中人物数量较重要: 在海报设计中人物最好不要超过三个,人物越多用户很难聚焦信息,导致用户对该影片的理解能力变差。

用户为什么点击这张,而不是另一张。是因为海报上有你的idol让你情非得已?演员的夸张的表情让你欲罢不能?又或者是海报的色调搭配、构图设计让你赏心悦目?还是其他未知的原因?

然而这不得不让我们开始思考,在提供个性化内容的同时,能不能满足用户对不同海报的审美需求。这给视频平台提出了一个新的挑战。爱奇艺技术产品团队设计并实现了一套个性化海报生产与分发系统,在爱奇艺的电视端与移动端进行了个性化海报分发的实践,并得出结论:相比默认的单张海报图,个性化海报图的CTR(Click-Through-Rate即点击通过率)有明显的提升。

个性化海报智能生产与分发系统

图 1 个性化海报图整体框架

在获取丰富的素材后,利用AI海报生产系统对海报、剧照素材进行智能裁剪,对视频素材进行智能截帧。自动化生产出大量候选图片集合,为保证海报质量能100%分发到线上,需进行二次人工复审,复审后的精选海报集合进入个性化海报池。

海报的线上分发模块与传统的视频推荐类似,对需要展示个性化海报的视频进行海报维度的召回、排序以及业务策略,最终为用户推荐最优的个性化海报。下文将详细介绍在AI海报制作、个性化海报分发以及线上实践效果。

AI海报制作

巧妇难为无米之炊,个性化海报推荐首先要有海报候选集合。爱奇艺技术产品团队自研自动化海报生产与裁剪技术,生产出很多优质的海报候选。

图 2 AI海报生产流程

智能裁剪:基于图片的AI海报制作

基于图片的智能检测,我们将海报生成算法分为了几个模块,分别是基础算法、智能截图、智能LOGO叠加、ZoomAI智能增强技术,具体如下:

基础算法模块,主要利用多个AI算法来获取基于图片的海报语义信息。人脸、人体以及实体识别能有效的识别图中的人物和其他实体,以及其所在位置信息。并利于文字检测算法,我们可以知道文字出现的区域,避免出现文字被截断。

智能截图模块,利用基础算法模块得到的信息,进行智能构图,从而得到任意目标尺寸的截图。智能LOGO叠加模块的主要作用是自动地将美化后的剧名LOGO合成到上一步的截图模块得到的图片上。主要包括智能布局、智能调色和多LOGO智能选取等功能。

ZoomAI智能增强技术,包含去噪、色彩增强等功能,画质增强算法可以用来提升图片质量。用来进一步提升生成海报图的质量。

智能截帧:基于视频内容的AI海报制作

基于视频内容的AI海报制作,有一个新的挑战是需要从海量的视频帧中选取合适的一些帧来作为生产素材,生产出高质量的海报图,并且避免重复。因此,我们设计了智能采样模块来解决这个问题。

在智能采样模块中,我们首先会将视频进行场景切分,并且限制每个场景的素材数量,减少重复的同时提高生产效率。其次,采样率会根据之前的结果动态调整,提高当前场景的生产率。同时,采样率也和视频类型息息相关,如片花的采样率会比正片高,因为片花会包含更加高密度的信息。

个性化海报分发

个性化海报的分发,分为离线、在线两个部分:

离线部分,将海报图片上传CDN生产线上可用的图片链接,并将海报图索引信息上传数据库。同时爱奇艺技术产品团队还设计并实现了一套海报图标签特征抽取系统,结合脸谱用户侧特征以及用户行为数据训练个性化海报排序模型。我们尝试了上下文无关MAB,上下文相关MAB以及浅层或深度排序算法,如FM、DeepFM等。

在线部分,我们通过爱奇艺推荐平台,快速实现并部署了高可用的个性化海报服务。首先根据场景的配置,召回不同来源、不同尺寸、不同召回模型的海报集合,再利用训练好的模型对召回集合好个性化排序,最后根据业务需求应用不同的策略逻辑,将最合适的海报分发给用户。

特征抽取

在海报入库之前,需要抽取海报本身的特征。我们获取候选海报图的图片基础特征、图片质量特征、明星特征、舆情特征、Embedding特征以及行为统计特征等,其中统计特征包括实时和在线部分。

海报图排序模型

在海报积累足够用户行为之前,我们并不能提前知道用户在看到海报之后如何反馈,也就是不能提前获得收益,唯一能做的就是不停地尝试Exploration,并收集反馈更新策略,目的是使得整个过程损失的收益最小。这一过程就是十分经典的的多臂赌博机问题(Multi-armed bandit problem, MAB)。我们应用MAB算法是将不同的海报候选当做赌博机的多个臂,不断的试探用户,让效果更好的海报的展示机会更多。

  • 上下文无关MAB

上下文无关的MAB有很多经典的算法,比如基于贪婪优先的Epsilon-Greedy算法,基于最大置信区间的UCB算法,以及基于Beta分布假设的ThompsonSampling算法。为了捕捉用户不同时间段的兴趣爱好,经过对几种算法的实验对比,我们最终采用了一种基于滑动时间窗口的MAB算法。

  • 上下文相关MAB

上下文无关的MAB能有效的利用用户的群体智慧选择合适的海报分发更多的流量,但是个性化不足。因此我们尝试了上下文相关的MAB算法:一个海报被选择后推送给一个用户,其回报和相关特征成线性关系,这里的“相关特征”就是上下文,也是实际中发挥空间最大的部分。于是试验过程就变成:用户和海报的特征预估回报及其置信区间,选择置信区间上界最大的海报推荐,观察回报后更新线性关系的参数,以此达到学习的目的。

应用的特征包括用户特征与海报特征,用户特征使用用户脸谱的特征,海报特征参见上文的海报特征抽取。在实际应用过程中,有时为了提升场景的丰富度,会随机丢弃一些历史特征,以达到Exploration的目的。

  • 海报排序模型

与视频推荐排序类似,在搜集了足够多的用户行为后,我们训练了浅层的排序模型,如LR、FM与GBDT等,同时我们也尝试了深度模型,如DeepFM等。因为篇幅的原因这里不在详细说明各种排序算法。

  • 线上随机小流量

值得一提的是,我们线上一直保留了一部分随机小流量。一方面是增加Exploration,另一方面我们可以根据随机流量的投递日志,离线重放实验模型的预测结果,在评估AUC之后,离线的评估模型可能的效果收益,将效果不明显的优化扼杀下摇篮里,从而提升AB效率。

海报应用策略

1、海报沟通丰富度

同一个海报展位,如果展示的海报的构图都比较类似,比如一排都是明星的表情特写,整体上美观度可能会有所影响,长期以往会让用户有种看到直播画面的乱入感。因此我们根据业务需求,我们设计了两种海报构图丰富度算法:

  • 基于Tag的丰富度:每个视频有N个海报图候选,每个海报候选都有很Tag特征,有表示图片构图的,有表示图片内实体的。我们根据场景的需求,在窗口内限制每类Tag的海报数量。

  • 基于图片相似度的丰富度:基于海报图的特征向量的相似度,应用MMR&Rule相似度打散算法。

2、展示降权

用户对于长视频的观看决策周期比较长,我们在不同场景进行了实践,同一个视频可能对于同一个用户展示多次。用户海报维度的展示降权不仅能增加海报图模型的探索性,也会让用户看到这个视频不同风格类型的海报图,吸引用户做出决策。

3、海报退场

对于视频的海报候选集合,我们设计了一套新增海报的爬坡退场机制。对于新增的海报候选,逐步的扩大其分发量与分发的用户量。实时监控其CTR,对于没有达到预期的海报图,进行适当的降级,直到退场处理,有效的保证线上效果不会受到新增海报的较大负面影响。

4、场景匹配

在某些线上场景,我们尝试了与场景结合的策略,主要是应用了图片Tag与展位展示文本信息的相似匹配。比如电影专题,Card的标题会显示的标识出明星的名字。如果我们优先的为用户推荐包含该明星名字的海报,用户将更容易理解,用户的体验将会进一步提升。实验数据也证明,这个策略对于该场景的效果也会有提升。

线上实践效果

在电视端、移动端的不同场景,我们均进行了小流量实验。并且统计了展位维度、单片维度、海报维度三个维度的效果,均有不错的提升。

图 3 虚拟场景A与场景B的展位维度效果示意图

上图是两个场景展位维度的CTR与UCTR数据,可以看到实验组,尤其是最优分桶的提升比较明显。下面可以看看一些海报维度的效果示例:

 

图 4 海报维度效果示意图****

 

写在最后

个性化海报的智能生产如何能从大量的海报中学习出通用的模式,并利用相关语义自动填充必要的元素,比如人物、物体。综合考虑构图与素材的生成式生产是未来的研究方向。我们也将研究个性化内容与个性化海报的排序模型融合,训练端到端的海报图排序模型, 同时兼顾视频内容和海报的影响,让个性化推荐给用户提供新的惊喜。

 

参考文档

https://medium.com/netflix-techblog/artwork-personalization-c589f074ad76

https://www.jianshu.com/p/558d38c62579


本文地址:https://www.6aiq.com/article/1578051599330
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出