Fork me on GitHub

闲鱼是如何做个性化商品选品及人群画像分析的

作者: 深宇 闲鱼技术

背景

  运营或者产品同学开展的各种导购、外投活动中常常需要做商品选品或者用户圈选,来提高活动的相关指标。一般的步骤包括商品选品、ab实验、用户画像分析、活动全量投放。其中如何快速准确并且多样地做商品选品以及相关人群画像分析决定着活动效果的好坏。
  常用的商品选品方案包括1)基于指标:根据活动指标(ctr、cvr、ipv等)进行建模。2)基于特征:根据商品的类目、品牌、价格等特征选品。常用的人群画像分析是基于用户的基础特征,如年龄、性别、城市、活跃度等等。

  然而随着业务的发展,我们需要更加个性化的商品选品或者人群画像分析方式,比如圈选ip、明星等相关商品,或者某些虚拟服务相关的商品,并在此基础上做相关人群画像分析。

图片

商品选品及画像分析

  用户在商品发布过程中填写的信息(标题、描述、图片、价格等)体现了商品的特征。对具有相似特征的商品进行选品,一种方法是对一类特定内容单独进行识别,比如“代拍车牌”虚拟服务相关商品,分类模型预测商品标题、描述、图片是否包含代拍车牌相关信息,这种方式准确率召回率高,但不利于扩展,下一次圈选“代购火车票”虚拟服务相关商品,要重新训练模型;另一种方法为对商品内容采用统一匹配的方式,圈选“代拍车牌”的商品,只要传入某一个相关样本,就能匹配具有相似内容的商品,这种方法优点是具有较强的扩展性,但同时准确率和召回率要低于第一种方法。

  考虑到个性化商品选品需求多样性以及人力成本,我们采用第二种匹配的方式。现在有两个方面需要考虑:1)系统设计 2)算法设计。

系统设计

 系统是构建在实时计算平台上的匹配方案,通过新建一些有特定主题的商品集合,并且为每个商品集合关联对应的样本作为冷启动数据,系统自动地实时给该集合匹配其具有相同主题的商品。一般的,具有相同主题的商品是指具有相似的标题、描述、图片等内容。

图片

  实时匹配系统设计如下图所示,比如要圈选一批“代拍车牌”服务相关的商品,第一步:手动录入某一个或一些“代拍车牌”相关商品的标题、描述、图片数据作为样本数据;第二步:建立一个商品集合,这个商品集合具有特定代拍车牌主题;第三步:将第一步样本数据关联到该商品集合,作为冷启动数据;第四步:系统开始自动实时匹配新发商品内容是否与该样本数据内容相似;第五步:匹配结果被确认是相似内容则作为新的样本回流到该商品集合的样本数据中,形成循环。

图片

算法设计

  实时匹配系统中的算法包括两部分:特征向量抽取以及相似度匹配。
  首先对于相似的定义分为两层:1)相同。商品标题、描述不存在差异或者只是局部某些字存在差异,并且商品图不存在差异或存在较小亮度、尺度差异。2)语意相似。商品标题、描述高维特征相似,或者商品图通过ocr提取的文字内容特征相似。

图片

  上图分别对两层相似进行可视化,其中左边一列对应的商品1和商品2标题和描述一样,区别只是商品2的图在右下角加上了卖家的logo,属于相同商品;右边一列对应的商品1和商品3标题和图的语意特征相似,都是对代拍服务的介绍,语意特征相似保证整体匹配结果的泛化能力。具体算法如下:

图片

  商品标题描述特征作为原始特征,对文本计算编辑距离,商品图特征抽取采用快速均值哈希或者感知哈希算法。当商品标题描述编辑距离以及图哈希特征hamming距离相对差异同时小于10%时认为是相同商品,差异大于10%则进入语意相似匹配。
  语意相似匹配中商品标题描述经过doc2vec模型转换成高维特征,商品图先通过ocr转换成文字,然后文字经过doc2vec模型转换成高维特征,对商品标题描述以及图的高维特征分别计算余弦相似度,只要有一个相似度大于0.8就返回匹配中的商品。

画像分析

  通过对商品相似内容进行匹配,发布相同主题的商品被圈选出来了,下一步可以对与这批商品相关的人群进行画像分析。
  人群画像数据来源结合人群的基本属性以及行为属性。基本属性包括年龄、性别、购买力等等;行为属性参考用户的RFM模型,R代表最近一次行为,比如最近登陆闲鱼日期;F代表频率,比如最近30天访问天数;M代表金额或数量,比如在线商品量。
  有了人群属性作为输入,还需要输出结果。不同场景可以定义发布或者浏览或者购买过这批商品的人群用户输出结果为1,不在这个人群中的用户输出结果为0。
  画像分析通过找出具有显著重要性的人群属性及其组合来给出分析结果,具体过程为:
  1)相关分析:分析属性与结果、属性与属性之间的相关性,剔除一些不必要的属性,比如30天卖出数和90天卖出数为高相关性的两个属性,保留一个即可。
  2)聚类分析:将连续的属性值聚类离散化。
  3)切面分析:采用决策树模型获得有效的属性切面。

图片

结果

  1)商品选品:冷启动一个“代拍车牌”相关商品作为样本,系统实时匹配新发商品标题、描述和图片。如下图所示,存在一部分标题描述语意高维特征相似的商品被误召回。在这个“代拍车牌”场景下,召回的商品中准确率为80%左右。

图片

  2)人群画像:选择272个发布过“代拍车牌”相关商品的卖家和2729个没有发布过“代拍车牌”相关商品的卖家,一共3001名卖家。发布过“代拍车牌”相关商品的卖家比例为0.0906,通过卖家人群画像分析,人群属性seller_ali_cnt_180days(最近180天C2C卖出笔数)为最显著的属性切面,其中3001个卖家中有36个卖家最近180天C2C卖出笔数为30到271之间,聚类均值为58.76,而这36个卖家中有0.5833的比例也即21个卖家发布过“代拍车牌”相关商品。同理可以得出其他几个切面的分析结果。通过人群画像分析得出结论为:发布过“代拍车牌”相关商品的卖家为交易、互动频次高的专业卖家(以上数据值均做过处理,不具备参考意义)。

图片

展望

  上文介绍了如何通过商品的标题描述以及图片做个性化商品选品和人群画像分析,相关方法也已经应用于闲鱼其他场景中。未来更进一步可以继续研究如何更有效提取图文高维特征从而提升匹配准确率以及开展多模态融合的内容匹配。


本文地址:https://www.6aiq.com/article/1630676477382
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出