【干货】搜索引擎技术资料整理
这篇博客意图是收集市面上质量不错的搜索引擎技术资料,内容来源包括开源项目官网(Lucene、Solr、Elastic)、综合技术网站(infoQ、Stackoverflow、github 等)、专业技术网站(我爱自然语言处理等)、国内外知名互联网公司技术博客(阿里中间件团队博客、美团技术博客等)、知名技术牛人博客(Matrix67、刘超觉先等)等。
以下整理的内容大致根据来源进行分类,等这篇整理得差不多了再开一篇博客根据知识点进行梳理。
个人视角有限,还望各位同行补充、丰富,谢谢。
开源相关
Lucene
-
Solr
-
Elastic
-
LucidWorks
-
中文分词
大公司
阿里
-
一淘 购物搜索引擎架构的变与不变(视频) - 20130127 - infoQ
音频质量不高,听起来比较费劲。 -
天猫推荐算法团队的那些事儿 - 20140401 - infoQ
本文以访谈的方式呈现,对搜索和推荐算法进行了简单的比较,提到了 AB 测试和离线测试,主要对推荐算法团队的工作方式、工作考评、任务分配、招聘等进行了介绍。 -
天猫推荐算法实践(视频) - 20140622 - infoQ
简单介绍了天猫推荐业务、推荐系统架构,较为详细的分析了双 11 个性化会场案例,主要是针对品牌的个性化推荐,最后引出阿里巴巴大数据竞赛、天猫推荐算法大赛,题目是:开放 2011 年 4 月 -8 月用户对品牌的行为数据(点击、购买、收藏、加入购物车等),预测这些用户在 2011 年 9 月购买的品牌。
推荐:天池大数据竞赛 天池数据集 -
天猫 11.11:搜索引擎实时秒级更新 - 20141111 - infoQ
文章简单介绍了阿里搜索引擎架构,提到了以下内容:1)为提高数据实时性(库存、价格等),去掉应用层和业务层的缓存,重点提升引擎层的服务能力。2)排序链,根据业务场景定制排序链。3)sku 搜索,搜索结果和属性导航联动(标类产品)。 -
基于 Hadoop 生态技术构建阿里搜索离线系统(视频) - 20141205 - infoQ
主要介绍了:1)阿里搜索业务(1688、淘宝、天猫、一淘、openSearch);2)搜索技术体系;3)搜索离线系统;4)实时计算方案;5)集群优化与管理; -
开放搜索服务系统架构:从系统、平台到开放服务(视频) - 20150610 - infoQ
简单介绍了:1)搜索引擎的基础数据结构(倒排索引) 2)阿里搜索架构演变:单机架构;分布式架构(自动分发部署、集群资源复用);平台化(系统插件化);服务化(openSearch 自助式云搜索服务、多租户数据模型)。 讲解循序渐进,思路清晰,推荐。
阿里搜索事业部技术团队
阿里集团搜索、推荐、图像技术的大本营,大数据时代的创新主场。
阿里中间件团队博客
2012 年期间,阿里中间件博客记录了 20 多篇 Lucene、Solr 相关博文,主要记录了一些在项目开发过程中遇到的问题,以及部分源码解读。内容丰富、实用,但不是很系统。
腾讯
百度
京东
美团点评
美团点评技术团队博客
在国内互联网公司中,个人认为“美团点评技术团队博客”是最持之以恒的,而且非常干货。
携程
去哪儿
搜狗
一号店
待分类
国内
国外
开发应用
理论基础
-
我爱自然语言处理 推荐
-
漫话中文自动分词和语义识别 膜拜中文系大牛 Matrix67
源码解读
-
刘超觉先 详细分析了 Lucene3.x 的源码,推荐。
-
Anatomy of an Elasticsearch Cluster: Part III - infoQ 翻译
常见问题
-
其他