阿里飞猪林睿:从核心因子预估 > 实体识别,如何实现文本和空间的搜索相关性?
分享嘉宾:林睿 阿里巴巴 算法专家
编辑整理:李鹏 重庆邮电大学
出品平台:DataFunTalk
导读: 随着人们生活质量不断提高,出门旅行逐渐成为大众喜爱的消遣方式,酒店预定则是出游必不可少的一环。为了让用户拥有更好的体验,满足用户各种个性化地搜索,从而让用户在最短时间内找到心仪的酒店,文本将分享飞猪旅行酒店搜索相关性建设,主要包括:
- 酒店搜索背景
- 酒店相关性
- 基础建设
- 相关性建模
01 酒店搜索背景介绍
1. 酒店小搜背景
酒店搜索的主入口是飞猪应用主页的“酒店”,随后进入到搜索页面,这是一个比较大的垂直搜索页面,点击搜索酒店后会根据历史记录推荐一些用户想要搜索的酒店,这个业务是一个多端、多场景、多意图的搜索。不仅在飞猪APP上有酒店搜索的入口,在淘宝以及支付宝端也有酒店搜索的入口。毕竟各个端的用户行为、想法还是不太一致,因此各个端的排序也要做好,并且要做出一些差异。另外搜索方面的条件也是非常多元的,它不像传统的百度可能只有文本搜索,酒店搜索条件的多元体现在有文本、价格、星级和城市这样一些不同的条件。进入历史搜索页面后,还有各种各样的筛选条件,所以整个搜索条件是非常丰富的。
- 它与淘宝的搜索是不太相同的,酒店的用户行为比较稀疏,一个用户可能一年预定几次酒店,甚至几年订一次酒店,这也增加了算法上的一些难度
- 酒店的用户决策周期是比较长的,酒店的价格相对较高,在最终购买的决策之前,用户有比较多的一些点击行为和思考
- 酒店搜索个性化是比较强的,会有一些周期性的需求,比如一些出差用户会有周期性的需要等等
这些都是搜索业务上的一些特点,这些特点会带来一些挑战。首先就是刚才提到它的搜索条件比较多,与传统只有文本的搜索不同。除了要关注文本中提到的一些POI,以及一些筛选条件,也需要关注用户本身离它的距离和价格偏好。除了常规的文本相关性需求,在酒店搜索业务中还会有很多其它相关性需求,例如空间,用户可能需要定在某一个景点附近的酒店,或者是公司附近的酒店;还有价格,用户可能是学生党或者是准备穷游的人,会对价格有不同的偏好,这些都是要在酒店相关性排序上需要考虑的。
2. 酒店搜索架构
接下来介绍酒店的搜索架构,该架构和传统搜索还是比较相似的,它也是有一个SP,它会通过实时库链接到用户请求,然后调用请求搜索,接着用QP进行Query的解析,以及对相关酒店进行初排,拿到初排后会调用TPP服务来进行一个排序和打分。此外我们还会结合用户离线的一些行为数据,以及当时用户在线的实时交互特征,以及酒店的一些离线特征,例如名称和位置等。另外也会有一些酒店的实时特征,比如近期的一些成交量,还有一些库存之类的,还考虑到一些实时的报价特征等,最终做出这样一个排序来作为用户的搜索结果。这一次分享的主题主要侧重于酒店相关信息化部分,接下来介绍酒店的相关性部分。
02 酒店相关性介绍
1. 场景与相关性
酒店的相关性和传统文本相关性比会比较复杂,例如空搜/附近搜或景点/商圈搜索,我可能会比较注重于距离的一个敏感度,搜索附近肯定是希望住的酒店离这个位置比较接近;当你搜景点商圈的时候,你也肯定希望想要住在这个景点附近,或者是住在商圈之内,同样是对距离比较敏感的搜索。这两个搜索也是有些区别的,因为像空搜附近搜的时候,其实用户的需求比较泛,可能更多的要考虑用户个性化的一些需求;在搜索景点和商圈的时候,这个意图比较明确,因为一般搜景点的玩法是固定的,其实它和本身的搜索更为相关,和用户本身个性化可能关系不是那么大。
另外用户可能会搜索一些名称品牌,比如如家,他肯定希望想要一个如家的酒店,或者可能跟具体名称相关的一些酒店,这时候会涉及到一些文本相关性的判断,因为用户也可能记不特别清楚这个酒店的名称。另外还会有一些混合的情况,比如用户搜索了“三里屯如家”这种类型的query,既满足距离的位置限制,也满足文本的匹配程度。
2. 酒店的相关性
综上,整体的酒店相关性是比较复杂的一个情况,它是由文本、空间、价格这样多元融合的一个相关性,同时它也受到用户、场景及query中筛选条件的不同,它每一次搜索需要给用户展现一个相关度,也会有不同的侧重。前面提到的这些问题会导致酒店多元化的一个相关性,这会影响数据的标签标注,很难标出一个相关的数据集。它也很个性化,人工也不太好标注。现在整个相关性的模型训练,只能更多的依赖这种点击以及成交的一些label来帮助我们做相关性的一些训练。
综上,我们对酒店相关性的一个方案,就是按以下的步骤来展开:
- 首先是要识别用户的需求,系统对距离、价格这些的敏感程度以及一些相关程度
- 然后构建一个多元的相关性,能同时识别文本、价格、空间这样的相关性
- 最终根据用户的需求对这些相关性进行一个融合,进而得到整体的相关性来增强酒店排序的效果
03 基础建设介绍
1. 核心因子预估
接下来介绍一下我们在酒店相关性基础上做的一些工作,首先是对核心因子的预估,就是刚刚提到的距离和价格这两个因子,这是酒店预定决策中很重要的一环,在酒店相关性构造中也很重要,需要一个好的预估来构造相关性识别。从图中可以看到标签的分布非常不均匀,一般情况下高价酒店需要的人是比较少的,距离远的酒店大概率也是不太需要的。如果我们按照实际物理意义的远近高低价格来做一个划分,这个标签的分布会比较不均匀,为了解决这种不均匀的问题,我们对最终的方案要进行一个修正。要求先验概率比较大的类别需要有更大的逻辑,才能说它是比较有偏好的先验概率,比较低的类别可能就不用那么严格要求,就只需要比较低的逻辑,我们就可以认为它是对这个有比较好的偏好。总体来看,这样的修正在整体效果上还是比较好的,这里以价格为例,可以看到在一线城市价格的需求是比较高的,而在二三线城市它对低价位的需求是比较高的。在机场、酒店、车站的附近,用户对酒店的需求价格可能没那么高,可能就是临时住宿一天,并且对酒店的整个价格和星级舒适度的要求也不会那么高;但是在风景区或者校区公司,用户会对酒店的价格、舒适度有一定的要求。另外从提前天数的分布我们也能看出来,用户对酒店的价格也是有不同的需求,如果在当天预定就可能比较紧张地入住,可能对价格没有那么大的需求,如果提前好几天一个旅行的规划,用户对价格、舒适度会有一定要求,整体来说也是比较符合常人的基本认知,整体的效果还是比较好的。
2. 核心实体识别
我们还做了核心实体的识别工作,这是为了能更准确地计算文本相关性,需要对POI还有酒店名称,包括一些品牌实体进行识别,识别出来的POI也要能够方便计算空间相关性,需要知道景点或者公司的具体位置才能更好地计算空间相关性。我们在做实体识别的时候也会遇到一些问题,首先是实体识别的准确率,另外就是实体具体对应真实地图上的哪个POI。举个例子比如西湖,大家可能都会觉得是去杭州西湖,但实际上在其他城市也会有西湖,比如福州它也会有一些西湖的需求。所以我们还需要对实体进行一个消歧,让它能够正确映射到对应实体上,这样才能做后续的文本处理。
空间相关性的计算我们采用是这样的方案:
- 首先利用BERT加CRF的方式对用户输入的关键词进行NER识别,找出用户输入文本中的实体,因为BERT本身已经比较强大,所以我们通过简单的实体库和对训练数据进行一些数据增强后,就能得到实体识别一个比较高的准确率结果了
- 得到一个实体词后,通常会通过倒排序召回、向量召回以及用户的一些行为,即用户在行为上的一些点击行为进行召回,同样也能得到一些候选品牌,或者说POI的真实ID,我们会利用这种文本相关性的得分,来分析这种ID上对应的一些热度以及点击
- 利用所在城市的一些特征,来构建一个排序模型,最终选出一个最合适的实体作为单层识别实体的一个映射。有了这些实体识别结果以及核心因子识别能力,我们就能对用户的搜索有一个比较好的需求识别
04 相关性建模介绍
1. 文本相关性
接下来就需要根据这些需求识别结果来构建相关性模型,首先是文本相关性这一块分成了两个步骤:
- 一是在粗排中利用BM25和Jaccard等一些方式,来计算初步的文本匹配得分,并用这个得分按照一定阈值进行分档,这个分档在粗排中可以作为一次粗的筛选来得到一些候选的酒店;
- 二是在精排模型中会利用计算的分档方案作为一个特征,同时使用酒店名字的一些文本,以及用户搜索中的一些关键词,以此来构建一个文本相关性的网络。这里由于对性能的要求,该网络是比较简单的,我们通过transformer来对query以及title的分词结果来抽取文本特征,得到query和title的文本向量表示,然后进行求差以及按位相乘的操作,会得到两个新的相关向量,将这个向量与原始的query、title以及transformer抽取到的句子特征向量进行匹配,然后通过一个FFN来作为文本相似度的一个特征向量。
2. 空间相关性
接下来介绍空间相关性的建模过程。这块我们原始有一些积累,原始的方案是比较简单的,首先是利用用户到达酒店的一个距离,以及POI到酒店的距离做一个特征。另外刚才用到的距离预估因子分布,做成一个特征交叉输入到排序模型中,作为另一种空间相关性特征。
同时使用酒店POI以及用户的geohash特征作为用户当时所在地的一个表示,这里介绍一下什么是geohash特征,就是可以通过一定的编码方式将经纬度映射到一个网格上,每一个网格就可以用一个geohash来表示,但是它可能会有一些问题,比如在红点这个位置它被分在了中间这个格子,其实它离上面的格子也非常近,所以我们在用具有geohash特征的时候,会考虑它周围八个格子的信息,即综合当前所在格以及周围八格的信息,共同构建一个位置特征输入到模型中做空间相关性计算。
即使这样,方案也还是有一些问题,首先是距离的特征,它并不能很好地衡量空间相关性。举个例子,在上图中当用户搜索西湖的时候,我们对用户所点击的酒店进行一个热力图分析,发现用户在搜西湖附近的酒店,它是有一些比较分散的分布,并不是离西湖越近它会热度越高,因为用户可能会想靠近一些其它的地方,比如浙大的一个校区,以及杭州动物园的其它景点,用户可能会综合考虑要去各个景点的一个方便程度,因此不一定要预定在西湖最近,所以仅有距离这个特征并不能够很好地衡量空间相关性。另外刚才提到的geohash特征,虽然它有二维空间的一个特征,但是它过于稀疏,因此我们只好把它映射到一个ID上,这个ID在学习的时候已经丢掉了它本身的一些地理信息,已经没有原来的经纬度和地理接近的一些信息,我们只是通过学习来得知这个ID和那个ID是比较近的,是通过数据训练学出来的,经纬度它天然带一些这种接近或不接近的信息,这些信息我们在做特征的时候就把它丢掉了,这样又由于geohash比较稀疏,可能学习起来也就很难得到我们想要的一个结果。综上,我们考虑了对空间的一些特征进行优化,将原始的二进制序列进行保留,用这个二进制序列来构建一个tokenlist,这样来表达一个地理信息,从而保留经纬度本身的一些距离关系。
这里举一个例子,我们通过还原它原始的二进制编码,可以得到一个零一表征的序列,由于geohash的一个特性,零一序列的前缀相同越多,得到的这两个序列就越接近。转成这样一个编码后,将它当成一个文本特征来处理,从而可以得到两个文本,它们的前缀相同越多,它们就越接近,这和文本相似度其实也是比较相像的。由此我们就得到了这样一个方法:
- 将geohash转成一个二进制编码,然后用二进制编码的文本表示作为它的空间特征,这样来计算就可以比较好地衡量空间相关性
- 和刚才文本相关性计算也比较类似,我们会将用户、酒店以及POI的geohash转化成一个文本序列,这个序列也是通过一个网络抽取的特征向量
- 得到特征向量后也是通过这种计算,它的差以及单位点乘的方式得到它的交叉向量,最后将这些向量分配在一起,得到最终空间相关性的向量表示
3. 多场景相关性
前面也提到,酒店预定的相关性是比较多元的多场景,因此它需要做一个多元的融合。因此,我们提出了一种多场景多元相关性的融合方案。我们使用了两种特征处理的MLP来实现这个功能,一种就是通用的特征处理,对所有前面抽到的相关性特征,以及酒店固有的一些属性特征,进行一个通用特征处理,得到一个特征向量;另外我们通过前面QP阶段识别到的不同场景,比如商圈搜索、附近搜索、名称搜索之类的场景进行划分,通过一个路口可以走不同的场景来进行MLP的特征抽取,这样可以让这两个特征抽取网络侧重于不同的特征。特征向量是分配的,在进行预测的时候也会通过不同的场景,用不同的预测网络进行点击以及成交的预测,这样就可以学到一个统一的模型来处理不同的场景,并且还能比较好地处理一些场景融合的问题。
4. 详情页特征
最后介绍对其他相关性的一些优化,前面也提到由于标注的难度,我们主要依赖用户点击,还有用户成交的行为来做一些label的标注。刚才提到用户在酒店搜索上的行为会比较稀疏,且决策周期较长,导致成交行为非常少,仅用点击和成交这两个行为,很难把相关性学习得比较好。后来我们分析在成交和点击之间,用户进入了一个详情页页面,在详情页的一些行为能够反映出用户对酒店的偏好和喜爱程度。如果用户点了查看价格,他去看具体会优惠到多少钱这种行为,就说明他对这个酒店已经非常关注了,可能只是有一些价格上的问题,这个酒店其实是非常相关的;另外用户可能去看房型内部的一些具体介绍,比如大床房、双床房这样的介绍,也说明他对这个酒店比较关注;包括他查看一些评论,看这个酒店有没有会员卡之类的行为都能够表现出来,都说明他对这个酒店其实是非常关注的。这种情况下,酒店其实已经和用户当前搜索非常相关了,因此我们考虑在模型上进行一些优化,引入详情页上用户的行为来作为一个辅助任务,由此来优化我们相关性的模型。
这个模型就是在多场景成交预测模型上对后面的预测进一步细分,利用它的向量分别对用户在详情页上的一些行为,例如进入购买页、点击房型查看、以及是否有会员卡这些行为标注出不同的标签,然后我们分不同的预测网络对标签进行预测,得到这些网络的输出后再通过一个feature merge,最终得到一个向量再来预测成交的行为。这样引入了一些辅助任务,最终的loss计算是根据点击、成交以及这些辅助任务来进行设计,按照不同的权重融合在一起。这个权重通过实验学习发现也没有特别好的效果,所以最终还是人工拍了一个权重来做最终的融合。
还有考虑到决策周期较长,我们还引入了全局的成交数据来优化酒店搜索,成交的label表示用户搜索的酒店价格比较高,他可能会反复的查看,进行相关对比最终才会成交。用户有可能不在搜索出来的产品成交,可能会在推荐的产品中来成交酒店。在这个过程中,搜索中出现了的酒店都应该被认为是用户很关注的,是一个相关性比较好的酒店。因此我们按照一定时间的隔阈值来看,在一个时间范围内如果酒店成交了,在此之前所有搜索中展示了的酒店,都认为它是一个成交正例,用这个方式也能对相关性的学习效果得到比较好的提升。
05 未来工作
最后介绍我们后续还会对相关性做出哪些优化:
- 首先是空间价格的预估,我们会继续探索用更好的方式来进行预估
- 在空间距离预估方面,我们希望距离不仅使用距离长度来表示,还将引入二维的预估方法,这样能更好地解决空间分布的问题
- 在价格方面考虑到一、二线城市的差异,绝对的价格预估也不太友好,后续将考虑当地消费水平然后进行价格比例预估
- 在相关性上,后续也会升级空间文本相关性模型,尽量在线上应用更复杂的一些模型,还考虑引入历史搜索序列来做上下文的相关性计算
分享嘉宾: