Fork me on GitHub

贝壳找房 |【知识图谱系列】开篇:基于 KBQA 的经纪人咨询助手

今天给大家介绍一个知识图谱在贝壳找房的实践案例,一款基于KBQA(knowledge base question answering, KB-QA)的经纪人咨询助手应用。7月份我们图谱团队代表贝壳参加了知识图谱技术国家标准的制定研讨会《知识图谱国家标准研讨会暨团体标准启动会成功召开》,之后受邀参与撰写知识图谱实践案例,这个案例我们已于8月底投稿到国家知识图谱优秀实践案例集,简单修改后分享给大家。

1 案例基本情况

1.1 案例背景

随着互联网技术的不断发展,互联网逐渐地渗透到各行各业,尤其在国民经济七大关键行业—制造、金融、零售、物流、文娱、教育、医疗中得到很好的应用。互联网带来信息联通、流程优化、效率提升释放了各个行业的巨大潜能,为产业带来很多红利。据艾瑞研究院建模推算,2019-2024年产业互联网相关投入应用所带来的GDP增量将达到整体GDP增量13%,行业产生数据占中国产生数据总规模的比例将从52%提高到60%以上。

伴随着产业发展的深入,浅层基础建设基本完成,互联网正加速向房产这个线下场景渗透,并逐步实现「由轻到重」的角色转变。链家作为中国地产中介的龙头企业,基于特有的平台优势以及稳固庞大的经纪人资源,一反行业常规从线下打线上,从低频打高频,开始对互联网端口进行再造,正逐步由一家传统的房地产企业向数据驱动的科技平台型企业转型。2018年4月23日贝壳平台诞生,伴随着平台的发展,越来越多优秀中介品牌的不断加入,经纪人的规模达到了45万之多。因职业年限、个人能力、学历等多方面因素的差异,导致经纪人服务水平参差不齐,如何帮助打平经纪人的方差,成为当前亟待解决的任务。基于此,我们选择当前一个经纪人和用户线上交互比较多的IM对话场景进行改造,学习优秀经纪人的聊天技巧,抽象出一套SOP和模板库,实现了一款基于KBQA的经纪人咨询助手,进而辅助经纪人和用户的对话,提高经纪人服务水平。

1.2 系统简介


图1. 咨询助手效果样例如图1咨询助手(前称为智能助手)的样例,展示了在IM场景下经纪人与用户对话的过程(详见图2)。通过咨询助手,可以辅助经纪人回答用户的问题。对经纪人来说,当用户咨询房源信息或者需要经纪人推荐房子时,咨询助手的消费端会主动消费队列中的消息,通过对话中台先调用NLU(Natural Language Understanding的简称,自然语言理解)进行用户意图理解:句法分析+情感/句式识别+意图识别+槽位抽取,然后将理解结果返回给对话中控,对话中控会调用DM(Dialog Management的简称, 对话管理),DM会记录和管理当前和历史的对话状态信息,基于对话策略决策出相应的动作,然后选择相应的动作集合返回给对话中台,对话中台根据动作类型调取Sbot(找房机器人)或者Qbot(房源详情问答机器人)或其他类型动作。如果动作是找房类型,会调用Sbot,Sbot会基于对话过程记录的槽位信息,帮助用户查找合适的房子,同时会根据情况询问用户相关的状态信息;如果动作是详情问答类型,会调用Qbot,Qbot会基于句式和槽位信息,判断问题类型,查询知识图谱、获取意图对应的回答模板信息,然后基于查询到的三元组和模板拼接生成回答返回给经纪人,然后由经纪人点击选择发送用户。总结下我们这款经纪人咨询助手特点,有如下三个方面:

  1. 全方位理解用户意图

基于NLU,建立起对用户消息的全面地抽取理解,为下一步精准分析决策提供坚实基础;

  1. 打平经纪人服务方差

基于机器学习优秀经纪人的回答话术来生成回答,能帮助水平中等偏下的经纪人提升服务水平,减小经纪人服务方差;

  1. 提升经纪人作业效率

基于机器的辅助回答,经纪人可以快速地回复用户消息,提升自身工作效率同时,也提升用户体验;

2 取得效果

高质量的问答体现在经纪人高的采纳率,通过不断提升NLU-DM-Qbot能力,来提升房源详情问答的能力,渗透更多的经纪人使用及采纳Qbot的回答。从2018年项目上线到现在,经过两年的迭代优化,经纪人对详情回答的采纳率提升近两倍,当前的采纳率50%左右。

3 实施技术路线

3.1 整体架构


图2. 咨询助手整体架构图

3.2 技术路线

下面着重介绍下基于知识图谱的Qbot部分的实现,也称KBQA部分,功能架构图如下:

图3. Qbot的整体功能架构图下面整体介绍下为了支撑KBQA模块,我们是如何构建知识图谱(知识库)的,主要包含知识建模、知识获取、知识融合、知识存储四个模块,分块解读如下:

3.2.1 知识建模

知识建模是指建立知识图谱的数据模型,即知识的逻辑体系化过程,构建一个模型对知识进行描述。知识建模的过程是知识图谱构建的基础,高质量的数据模型能避免不必要、重复性的知识获取工作,有效提高知识图谱构建的效率,降低领域数据融合的成本。不同领域的知识具有不同的数据特点,需要分别构建不同的知识模型。知识建模一般有自顶向下和自底向上两种途径:1.自顶向下的方法是指在构建知识图谱时首先定义数据模式即本体,一般通过领域专家人工参与。从最顶层的概念开始定义,然后逐步细化,形成具有领域特色的分类层次结构。2.自底向上的方法则相反,首先对现有实体进行归纳总结,形成底层的概念,再逐步往上抽象形成上层的概念。在贝壳房产知识建模过程中,我们充分结合“自顶向下”和“自底向上”两种方法。


图4. 本体建模流程

3.2.2 知识获取

知识图谱中的数据来源于结构化、半结构化以及非结构化的数据,知识获取即是通过知识抽取技术从这些不同结构和类型的数据中提取出计算机可理解和计算的结构化数据,并存入到知识图谱中。知识获取作为构建知识图谱的关键步骤,通常包含抓取、机器学习、专家法等。

对于贝壳来说,得益于链家积累了十多年的房产行业的结构化楼盘字典,以及通过采买的方式获取大量地图POI数据,为知识图谱构建提供了高质量的数据来源,这也是区别于其他产业、竞品或者通用领域的知识图谱一个巨大优势,为房产行业图谱的建设提供了有力的数据支持。

机器学习越发的成为知识提取的重要手段,尤其是在处理非结构文本数据时,通过机器学习可以有效的发现知识以及知识之间的关联。例如,在构建实体子图的过程中,利用现在较为成熟的实体识别和关系抽取技术,从经纪人的回答文本信息中可以抽取出高质量的房源信息。

除了楼盘字典、基于机器学习的信息抽取技术,我们还可以依赖专家的经验,这是构建领域知识图谱的常用手段,事理图谱以及事件图谱通常是由专家的经验形成的。例如,在构建税费事理子图的过程中,需要大量的专家经验去拆解相关的购房税收政策。

下面给一个基于IM场景的经纪人和用户对话数据,从经纪人的回答中挖掘有价值的房源小区FAQ问答对及三元组信息,补全现有知识图谱知识缺失,挖掘流程如下:


图5. 基于对话日志的FAQ/三元组挖掘抽取流程

3.2.3 知识融合

知识图谱构建的过程中数据来源广泛、质量参差不齐,导致它们之间存在多样性和异构性。例如,对于相似领域,通常会存在多个不同的概念或实体指称相同的事物。知识融合指对来自多源的不同概念、上下文和不同表达等信息进行融合对齐的过程。

在构建贝壳房产知识图谱过程中,我们遇到不同来源的房源、小区实体对齐问题以及基于实体的文本信息的实体链接问题,在解决实体对齐和实体链接问题后,我们对实体进行知识融合。抽象出一般的融合流程如图5所示。


图6. 实体对齐融合流程

3.2.4 知识存储

知识存储是针对知识图谱的知识表示形式设计底层存储方式,以支持对大规模图谱化数据的有效管理和计算。知识存储的对象包括基本实体知识、属性知识、事件知识以及多态资源类知识等。知识存储的方式直接影响到知识图谱中数据的查询、更新以及计算效率。

在实际应用的过程中,选择哪种数据库存储知识,要综合考虑数据的特点和规模,以及场景的需求、性能要求等,最终选择一个合适的数据库。比如针对问答场景,选择key-value型数据库,如redis;如果是检索实体类场景需求,选择es或者mysql,数据量大时会优先选择es;如果是关系挖掘或者可视化场景需求,则选择Neo4j、JanusGraph、Dgraph这几种图数据库,对存在关系挖掘需求支持比较好。

4 案例示范意义

4.1 形成一个知识图谱产业应用数据建设闭环


图7. 产业应用+知识图谱
图8. 房产知识图谱数据建设及应用闭环

4.2 垂直领域智能助手的可行方案

垂直领域相较于通用领域的问答有以下优势:

① 数据优势:垂直领域一般都有自己积累的数据,一般是高质量的结构化数据;问题的范围是有限空间,这样意图识别的种类是有限的,目标明确;

② 限定场景优势:问题的范围是有限空间,这样意图识别范围可以聚焦,这样识别的难度相对低些、也相对准些;

③ 领域专家指导:一般领域都会有领域的专家,这样不管是在问题的建模上、还是场景分析上都可以有一定的指导,特别当我们做知识建模时,可以结合专家的经验;同时专家也可以帮助我们对复杂业务知识进行拆解,帮助我们构建事理子图。

5 展望

以上是贝壳知识图谱系列文章开篇,后续我们会作关于领域知识建模、信息抽取、知识融合、房产事理知识图谱构建等工作的解读和分享。

作者介绍

王贺青,资深工程师,硕士毕业于哈尔滨工业大学,2018年加入贝壳,目前整体负责贝壳知识图谱构建及应用。

潘东宇,资深工程师,硕士毕业于河北科技大学,2020年加入贝壳,目前主要负责事理知识图谱构建。

语言智能部等你加入,工程&算法超多岗位!


本文地址:https://www.6aiq.com/article/1600300399521
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出