"[图片] 作者: 洪九来源： https://zhuanlan.zhihu.com/p/97357462 1.召回策略召回阶段通常是推荐、搜索、广告和O2O分单中的第一步，其输出作为后续阶段的输入。最终展示给用户的数据是这个集合的子集。召回太多，导致后续的精细化排序过程计算压力大，用户被“读懂” ...."

Fork me on GitHub

alg
本助手集算力、智能于一身，为您提供最精彩全面的人工智能技术资讯
搜索系统 • 0 回帖 • 6.3K 浏览 • 4 年前

算法工程师之路—搜索召回策略篇

作者: 洪九
来源： https://zhuanlan.zhihu.com/p/97357462

1.召回策略

召回阶段通常是推荐、搜索、广告和O2O分单中的第一步，其输出作为后续阶段的输入。最终展示给用户的数据是这个集合的子集。召回太多，导致后续的精细化排序过程计算压力大，用户被“读懂”的幸福感降低；召回太少，用户看到的内容太少，不利于用户和平台发生转化。所以召回阶段对系统的性能至关重要。

关于召回暂时想到这么多，后续补充.
preview

2. 搜索召回

搜索的使命是“找你所需”，在用户已经通过Query明确表达搜索意图的情况下，只需要对Query切词然后从倒排表中召回相关文档即可。但是用户很多时候并不能通过Query准确表达自己的真实需求,或者由于语言本身的复杂性，导致用户输入的Query无法与引擎匹配。种种以上原因导致“相关性低”或“零少结果”。所以搜索召回与推荐召回不同的是很大一部分工作集中在对Query的分析上。

2.1 Query多粒度切词

preview

不同的分词算法，在准确率、歧义词、未登录词识别等方面性能有较大差别。“小孩才做选择大人全都要”，为了不漏掉丝毫理解用户的机会，可以采取多种不同粒度的分词算法结果组合的策略。

比如:

Query:结婚的和尚未结婚的

分词一: 结婚/的/和尚/未/结婚/的

分词二: 结婚/的/和/尚未/结婚/的

分词三: 结婚/婚的/的和/和尚/尚未/未结/结婚/婚的

可以把多种分词结果组合去重丢给引擎,也可以看成是一种Model Ensemble方法。

参考资料:

1.基于层叠隐马模型的汉语词法分析

基于层叠隐马模型的汉语词法分析(_办法www.docin.com2. bi-LSTM + CRF 序列标注

https://ansvver.github.io/lstm_crf_ner.htmlansvver.github.io

2.2 Query纠错

preview

在百度中搜索“肯得鸡”。

可以看到百度已经帮我们把错误纠正了，避免了“零少结果”，提高了用户体验。

参考资料:

1.搜索引擎的Query自动纠错技术和架构详解

https://blog.csdn.net/catherine_985/article/details/78789089

2.3 Query丢词

preview
丢词相当于把用户较长尾的搜索需求“泛化”。比如用户搜索“上好佳饼干”，但发现引擎中目前没有相关商品记录。对Query做简单的分析:

preview

以上结果在http://ltp.ai/demo.html计算

根据依存句法分析结果，核心词汇 为“饼干”，“上好佳为修饰词”。同时根据“自定义”规则，“名词”(这里为“饼干”)的重要程度高一些。因此可以丢掉修饰词，只根据“饼干”召回相关的item。所以，Query丢词策略需要识别Query中哪些是重要词汇，最大努力的保留Query的原始语义。

2.4 Query同义

preview