阿里巴巴数字商业知识图谱的构建及应用
知识图谱是用图的方式描述实体以及实体之间的关联关系, 是实现认知智能的重要支撑技术之一。目前,阿里巴巴利用知识图谱对商业要素进行建模,已开发了智能商品发布、商铺管理、品类规划、平台治理等智能化应用场景,本文将会集中介绍该项目的核心技术以及业务应用。
01 背景介绍
知识是人类认识世界过程中总结的经验性成果,它包括事实描述、概念本体、规则和逻辑、原理和策略等。知识图谱是当前应用最广泛的知识表示方法和知识库建设技术,它用图的方式描述实体以及实体之间的关联关系, 是实现认知智能的重要支撑技术之一。知识图谱在语义搜索、智能问答、推荐计算、语言理解、大数据分析等技术领域发挥着重要作用,并已经在商务金融、生命健康等众多领域得到广泛重视和深入应用。
知识图谱在数字时代的高质量智能化发展方面,发挥着越来越重要的推动作用。亚马逊、沃尔玛、eBay等都把建设商务知识图谱平台作为提升智能化水平的重点。在数字商业场景中,阿里巴巴利用知识图谱对商业要素进行建模,例如,利用本体表示方法建模商品类目体系和定义商品标准属性;通过概念图谱(Conceptual Graph)建立场景、人群、主题、市场等核心商业概念的层次体系等。知识图谱在商品表示模型标准化、商业要素关系建模、多源异构商务数据的融合集成等方面发挥着基础性作用。
目前,阿里巴巴数字商业知识图谱已开发了智能商品发布、智能铺货、商铺管理、品类规划、平台治理等智能化应用场景,支撑了阿里集团旗下天猫、淘宝、淘宝特价版、饿了么、盒马鲜生、银泰百货等30多个零售业务单元,并拓展至旅游、文娱等多个领域。阿里知识图谱还先后获得了中国中文信息学会钱伟长科技奖一等奖、中国大数据技术大会最佳实践奖、中国物品编码中心委员会创新项目奖等多个创新应用奖。在近日揭晓的2021年度浙江省科学技术奖中,阿里巴巴与浙江大学等单位一起,以“面向数字商务的知识图谱构建与处理技术及产业化应用”为项目成果名称,获得浙江省科技进步二等奖,在学术与科技领域再创佳绩。本文将会集中介绍该项目的核心技术以及业务应用。
02 知识图谱核心技术介绍
2.1 知识图谱建设中的挑战
过去20年我国零售业的高速发展,沉淀了大量可用数据,我们利用知识图谱技术对商业要素进行建模,在理解商业活动本质的过程中,建设成了数字商业知识图谱,其相关技术支撑着下游数据和服务的产出和沉淀。在知识图谱的建设周期中,知识图谱构建帮助从无到有构建知识图谱;知识图谱补全可以帮助提升知识图谱的整体规模;知识图谱推理帮助沉淀知识图谱的整体规模和智能服务能力;知识图谱的数据管理帮助提供更好的知识服务。因此构建、补全、推理以及数据管理是在知识图谱生命周期中十分重要的环节。
整个数字商业知识图谱项目针对上述不同环节进行了详细的研究,主要包括:商品关系抽取任务、知识图谱补全中的链接预测任务、知识图谱推理中的表示学习以及规则学习任务、噪声数据中文命名实体识别等任务。这些核心任务存在着不同的关键挑战:
- **低资源构建问题:**相较于通用知识图谱侧重于理解热点头部实体,商业数据存在大量长尾领域,在大量依赖数据训练模型的背景下,知识构建技术面临的低资源挑战突出。
- **可解释性问题:**商业活动涉及生产、营销、触达、交易、配送、售后等长周期链路,商业活动参与角色众多,需要运营和算法实时互动。目前基于向量空间计算表示学习面临的核心挑战是对于预测结果的可解释性。规则学习作为有效的推理手段,需要达到一定的高效性才能保证真实知识图谱中的应用效果。如何通过推理提高模型的可解释性对于业务应用尤为关键。
- **大规模知识图谱应用问题:**如何有效地提取图谱中的信息,做数字化表示,更加高效地应用在下游相关业务和算法中,也是知识图谱在应用时碰到的关键挑战。
该项目针对这些关键挑战进行了一系列的研究,包括:
1)低资源条件下的大规模知识图谱构建,提出了低资源知识图谱构建技术,实现了在低资源条件下基于知识图谱嵌入和图神经网络的长尾关系抽取和基于规则学习的零样本关系抽取;
2)可微可解释的知识图谱推理:提出了可微可解释知识推理技术;
3)大规模知识图谱应用:提出了多元语义结构的大规模数字商业知识图谱预训练系列模型。
以下分为四个部分,第一部分介绍数字商业知识图谱引擎架构,后面三个部分分别针对上述三项研究的技术内容进行介绍。
2.2 数字商业知识图谱引擎架构
截至今日,数字商业知识图谱已经形成了整套的工业级端到端的大数据知识化解决方案,整个知识图谱引擎架构系统(图1)包括知识建模、知识获取、知识融合、知识推理、知识服务5大模块。这些模块的定义如下:
- 知识建模是定义通用/特定领域知识描述的概念、事件、规则及其相互关系的知识表示方法,建立通用/特定领域知识图谱的概念模型。业务应用包括商品类目属性树的搭建等。
- 知识获取是对知识建模定义的知识要素进行实例化的获取过程,将非结构化数据结构化为图谱里的知识。业务应用包括商品属性预测,商品类目预测等。
- 知识融合是对异构和碎片化知识进行语义集成的过程,通过发现碎片化以及异构知识之间的关联,获得更完整的知识描述和知识之间的关联关系,实现知识互补和融合。业务应用包括商品同款识别,商品信息映射等。
- 知识推理是根据知识图谱提供知识计算和推理模型,发现知识图谱中的相关知识和隐含知识的过程。业务应用包括卖点、推荐理由生成等。
- 知识服务则是通过构建好的知识图谱提供以知识为核心的知识智能服务,提升应用系统的智能化服务能力。
图1:数字商业知识图谱引擎架构
2.3 低资源知识图谱构建技术
我们提出了低资源知识图谱构建技术,实现了基于规则学习的零样本关系抽取 [1],以及基于关系对抗网络的低资源知识图谱构建 [2]。
✪ 2.3.1 基于规则学习的零样本关系抽取
⍟ 技术思路
关系抽取(Relation Extraction)是信息抽取的子任务,有监督的学习方法是目前关系抽取较为主流也是表现最好的方法,它将关系抽取任务当做分类问题,根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系,但其最大的缺点就是需要大量的人工标注语料。
零样本学习(Zero-Shot learning)是在已知(有训练集)类别上训练模型,使其能够对新(没有训练集)类别的样本进行预测,其核心是以已知关系和未知关系之间的联系作为桥梁,将已知类上学到的知识迁移到零样本的类别上。目前存在的ZSL方法主要集中在图像分类任务上,其中的一种做法是利用类别的词向量构建语义空间(semantic space)进行迁移学习,但是直接将这种方法应用到关系抽取任务上不太合适,除了因为关系抽取任务中关系的表示更多的复合词,像是“next to the body of water”,词向量找不到直接的对应表示外,单纯将词向量进行组合的表示也并不能捕获关系之间靠近本质的联系。
因此,通过利用知识图谱(KG)中关系的表示(KG embedding)和学习到的规则(rule)作为先验知识,结合两个现有的零样本图像分类任务中的模型ConSE和DeViSE,可将零样本学习应用到关系抽取任务上,并利用规则对从已知关系到未知关系的推理过程进行解释,下面简要介绍主要的技术要点。
⍟ 技术要点
这里提出的技术要点是利用KG中的关系的表示和学习到的规则建立共享的语义空间进行零样本关系抽取。对于关系抽取而言,不同的关系之间不仅包含隐式的语义关联,还存在显式的逻辑关联。
- **隐式语义连接:**基于语义相似的关系在潜在语义空间中离得更近的假设,例如 “国籍” 和“居住地”比“国籍”和“职业”在向量空间中距离更近。隐式语义连接部分通过引入知识图谱表示学习算法实现seen和unseen关系连接的建立。
- 显式语义连接: 基于符号推理识别未知类,假设“located_in_country ”和“next_to_body_of_water”为已知类,“basin_country”为未知类,通过AMIE可从KG挖掘规则 “located_in_country(x,y)∧next_to_body_of_water(x,z)?basin_country(y,z)”,该规则建立了已知类和未知类的联系,为未知类学习向量表示。整体的技术思路如图2所示。
图2:零样本关系抽取思路
✪ 2.3.2 基于关系对抗网络的低资源知识图谱构建
⍟ 技术思路
知识图谱补全(Knowledge Graph Completion,KGC)是通过链接预测或关系抽取来补充知识图谱缺失的连接,其主要困难之一是资源不足问题。KG中存在很多实例很少的关系,而且那些新添加的关系通常没有许多训练样本。阿里电商平台上的长尾类目中,商品知识或者PV关系的样本都比较少,呈现出长尾分布,比起样本较多的关系,长尾关系的预测和抽取性能显著降低。通过分析发现:a)关系的链接预测结果与它们在KG中的频率高度相关,KG中频率较高的关系明显优于频率较低的关系;b)关系抽取的效果,随着每个关系的样本数目减少而下降。因此,该项任务是在低资源条件下,预测KG中新的三元组,具体包括链接预测和关系抽取两个子任务。
⍟ 技术要点
我们提出了一个加权关系对抗网络(Weighted Relation Adversarial Network,wRAN)的通用框架,该框架利用对抗过程,将从资源丰富的关系中学到的知识/特征,去适应不同但相关的低资源关系。wRAN框架综合考虑了三部分问题:对抗迁移学习(Adversarial Transfer Learning),核心思想是通过对抗性学习过程提取领域不变性特征,该过程能够减少源域和目标域之间的分布差异;关系对抗网络(Relation Adversarial Network)学习通用的关系不变性特征,以此弄清不同关系背后的语言变化因素,并缩小相关关系之间的语言差异;负迁移(Negative Transfer)区别于标准的domain adaption源域和目标域之间的标签空间完全相同且共享,wRAN考虑从多个源关系到一个或多个目标关系的适应,并且考虑了不同的关系可能对迁移产生不同的影响,离群的源关系在与目标关系做判别时可能导致负迁移。比如图3所示,wRAN可以从三个源关系(place_of_death,place_of_birth,country)中学习通用的位置信息,然后将隐含的知识应用于目标关系(place_of_burial)以提高其预测性能,而capital关系则会导致负迁移。
图3:Relation Adaptation示例
具体地说,wRAN框架利用关系判别器来区分来自不同关系的样本,并以此学习从源关系到目标关系易于迁移的关系不变性特征,主要包含三个模块(图4):
1)实例编码器(Instance Encoder)用来学习可转移的特征。这些特征可以弄清关系之间的语言变化因素。考虑到模型性能和时间效率,这项工作使用CNN实现实例编码,其他神经架构,例如RNN和BERT也可以用作编码器。
2)对抗性关系适应(Adversarial Relation Adaptation),寻找可以区分具有不同关系分布的关系判别器。对抗学习有助于学习一个神经网络,该网络可以将目标样本映射到特征空间,从而使判别器不再将其与源样本区分开。
3)加权关系适应(Weighed Relation Adaptation),可以识别无关的源关系并自动降低其重要性,以解决负迁移问题并鼓励正迁移。通过两个角度来评估每个源关系/样本对目标关系的重要性:关系间相关性和实例迁移能力。并提出关系门控机制,学习和控制细粒度的关系/样本权重。
图4:模型架构
2.4 可微可解释性知识推理技术
我们提出了可微可解释知识推理技术* [3]*,在数字商业知识图谱的应用中实现了可解释知识图谱表示学习。
✪ 2.4.1 技术思路
电商货品运营需要对其商品的其功能、功效、适用场景等有深刻的认识,因此,需要构建一套丰富的商品标签体系。我们使用知识图谱技术来管理和组织这些标签本体,但在构建补全这个商品知识图谱的过程中,我们遇到了一些难点,包括黑盒算法较难拓展、badcase较难修复、比较难快速复用到新业务等。这些难点背后的原因,与商品标签种类与数量庞大,且更新和变化频率极高等都非常相关。因此,我们希望有一套基于规则的可解释知识图谱推理技术来克服这些难点。这里我们以“场景”为例,介绍可解释知识图谱推理技术。希望能够在某些业务中,可以按照场景来展示商品,例如,当用户搜索“花盆”时,不仅花盆会被呈现给用户,而且还有迷你景观、花瓶、以及种花相关的书籍,因为它们都跟“养花”的这个场景有关。
按场景进行商品展示的关键任务是建立他们之间的联系,称为商品-场景链接预测。链接预测旨在学习实体之间的潜在关系,在所有相关的学习方法中,学习连续向量空间中实体和关系的潜在表示的知识图嵌入(KGE)方法已被证明是有效的。KGE通过实体和关系嵌入之间的计算来完成预测。在商品-场景链接预测中,我们不仅仅需要较高的预测准确度,而且需要保证预测结果的可解释性。由于多数知识图谱嵌入模型均为黑盒模型,为了适应实际需求,我们提出了一种可解释的知识图嵌入方法XtransE,在此方法的基础上,解释生成器和规则收集器可以生成链接预测的解释和规则。
✪ 2.4.2 技术要点
该任务的形式化定义将构建商品-场景的链接形式化为知识图链接预测(KGLP)任务,利用商品和场景之间已有的复杂链接进行连接预测。对于此任务,我们构建了在已有的商品知识图谱中增加了一个新的实体类别,命名为“场景”,并在商品和场景之间用belongTo关系进行连接,例如:SwimmingTrunks,belongTo,Swimming。所以商品-场景链接预测可以定义为:给定包含商品和场景和知识图谱 K=\{E,R,T\} ,其中 E=\{L,I,V\} 是一个包含场景实体集 L ,商品实体集 I 和属性值实体集 V 的集合;R 是关系集合,包括关系belongTo和商品的属性集合P ;T 是三元组集合。任务设定为是在给定一个商品 e_I ,预测(e_I,belongTo,?) ,即预测商品所挂载的场景是什么 e_L 。
知识图谱嵌入模型。一种简单有效的KGE方法是TransE,该方法将实体和关系嵌入为向量。对于三元组(h,r,t) ,它将关系 r视为从头实体 h 到尾实体的翻译 t ,表示为 h+r \approx t ,其中分别是头实体,关系和尾实体的嵌入表示。但TransE不具备可解释性,所以基于TransE的假设,我们提出了一种新的可解释性知识图嵌入方法,称为XTransE。
XTransE的输入为表示实体和场景挂载关系的三元组 (e_I,r_b,e_L) ,其中 e_I\in I , e_L\in L 和 (r_b,belongTo) ,商品场景三元组得分函数定义为:
其中 \mathbb{e_I,r_b,e_L} 分别是输入商品e_I ,挂载关系 r_b 和场景的嵌入表示e_L 。 || \bullet||表示欧式距离。为了产生解释,我们对商品 e_I 引入了注意力机制,基于的想法是场景对一件商品的不同属性-价值对的关注度有助于我们了解它们之间的相关性。因此,XTransE中的 e_I 是通过融合不同属性计算而得的特定表示,特定三元组(e_I,r,e) 中的 e_I 计算方式如下:
在 f(e_I,r_b,e_L ) 公式中的\mathbb{e_I} 是{e_I} 的所有特定三元组的加权求和:
其中a_{e_L(r,e)} 是 e_L 对 e_{I(r,e)} 的关注度,计算公式为:
其中exp(x)=e^x , 模型的损失函数设计为:
其中 (e_I,r_b,e^{'}_L)是通过随机替换 (e_I,r_b,e_L) 中的 e_L 为e^{'}_L\in L 构造的负样本。这里一般随机选取非正确样本标签来构建负样本。训练完成后,我们根据a系数进行排序,即可得到模型的可解释性,如图5,最后再通过一些后续分析步骤,即可得到一些高置信度的规则供业务使用。
图5:XtransE模型可解释性流程
2.5 大规模知识图谱应用
对知识图谱进行预训练,再通过知识迁移和模型微调机制,把知识融入到下游模型中是知识图谱应用的热点。基于此我们提出了融合多元语义结构(图结构语义、文本语义、图像语义等多模态语义)的大规模商业要素知识图谱预训练系列模型 [4]。
✪ 2.5.1 技术思路
提出“知识预训练 + 图谱向量服务”新框架,将“Pretrained + Finetune”的思想引入到数字商业知识图谱的表示学习与应用中,由于数字商业知识图谱是典型的多模态知识图谱,通过深挖图谱中的多元语义结构(类型语义、属性关系语义、图结构语义、文本语义等多个模态的信息)对大规模知识图谱进行训练获得预训练的实体向量,然后针对下游任务进行微调学习以快速适应和优化下游任务效果,从而避免了对庞大图谱的重复训练。
✪ 2.5.2 技术要点
多模态知识图谱与传统知识图谱的主要区别是,传统知识图谱主要集中研究文本和数据库的实体和关系,而多模态知识图谱则在传统知识图谱的基础上,构建了多种模态(例如视觉模态)下的实体,以及多种模态实体间的多模态语义关系。如图6所示,在电商领域,多模态商品知识图谱通常有图像、标题和结构知识。
图6:多模态知识图谱数据示例
最近几年,一些多模态预训练技术被提出(如VLBERT、ViLBERT、LXMERT、InterBERT等),这些方法主要用于挖掘图像模态与文本模态信息之间的关联。然而,将这些多模态预训练方法直接应用到电商场景中会产生问题,一方面,这些模型不能建模多模态知识图谱的结构化信息;另一方面,在多模态数字商业知识图谱中,模态缺失和模态噪声是两个挑战(主要是文本和图片的缺失和噪声),这将严重降低多模态信息学习的性能。在真实的电商场景中,有的卖家没有将商品图片(或标题)上传到平台,有的卖家提供的商品图片(或标题)没有正确的主题或语义。图7中的Item-2和Item-3分别显示了电商场景中的模态噪声和模态缺失的例子。
图7:电商场景中的模态噪声和模态缺失示例
为了解决这一问题,我们将产品结构化知识作为一种独立于图像和文本的新的模态,称为知识模态,即对于产品数据的预训练,我们考虑了三种模态的信息:图像模态(产品图像)、文本模态(产品标题)和知识模态(PKG)。如图7所示,PKG包含<h, r, t>形式的三元组。例如,<Item-1, Material,Cotton>表示产品Item-1的材质是棉花。我们这样处理的原因在于:
1)PKG描述了产品的客观特性,它结构化且易于管理,通常为PKG做了很多维护和标准化工作,所以PKG相对干净可信。
- PKG与其他模态包含的信息有重合也有互补,以图7的Item-1为例,从图片、标题和PKG都可以看出Item-1是一件长袖t恤;另一方面,PKG表明这款t恤不仅适合秋季,也适合春季,但从图片和标题看不出来。
因此,当存在模态噪声或模态缺失时,PKG可以纠正或补充其他模态。
我们提出了一种在电子商务应用中新颖的知识感知的多模态预训练方法K3M。模型架构如图8所示,K3M通过3个步骤学习产品的多模态信息:
- 对每个模态的独立信息进行编码,对应modal-encoding layer;
- 对模态之间的相互作用进行建模,对应modal-interaction layer;
- 通过各个模态的监督信息优化模型,对应modal-task layer。
图8:模型架构图
1)modal-encoding layer
在对每个模态的单个信息进行编码时,针对图像模态、文本模态以及知识模态,我们采用基于Transformer的编码器提取图像、文本、三元组表面形式的初始特征。其中文本模态和知识模态的编码器参数共享。
2)modal-interaction layer
当建模模式之间的相互作用时,有两个过程。第一个过程是文本模态和图像模态之间的交互:首先通过co-attention Transformer基于图像和文本模态的初始特征学习对应的交互特征,其次,为了保持单个模态的独立性,我们提出通过初始交互特征融合模块来融合图像和文本模态的初始特征及其交互特征。
第二个过程是知识模态和其他两个模态的交互:首先用图像和文本模式的交互结果作为目标产品的初始表示,用三元组关系和尾实体的表面形态特征作为的商品属性和属性值的表示。然后通过结构聚合模块传播并在目标产品实体上聚合商品属性和属性值信息。商品实体的最终表示可以用于各种下游任务。
3)modal-task layer
图像模态、文本模态和知识模态的预训练任务分别为掩码对象模型、掩码语言模型和链接预测模型。
03 应用实践介绍
数字商业知识图谱目前在阿里巴巴集团内多个业务中有落地,主要的几个应用实践包括:
3.1 商品智能发布
利用知识图谱更好的对商品、商户做结构化和语义化,商家在发布一个新商品的时候,能够通过知识图谱的技术快速对齐和链接到已有的产品数据信息,帮助商家快速补全商品信息,助力商家智能发布,大大提升商家体验。
3.2 提升消费者体验
通过构建更加面向消费者侧、更加能够洞察和探测市场趋势的概念图谱的数据建设,沉淀了一套围绕电商场景的决策树体系,去辅助前台场景做商品运营,重构整个供需关系。支持淘宝/天猫搜索、榜单等31个流量场景,提升消费者体验。
3.3 商品实时管控
基于知识图谱多源信息融合和校验能力,能够更加精准地知道一个商品信息是否准确,从而更好地去治理管控商品,做商品的实时管控,为构建良好消费者权益和体验保驾护航。
3.4 跨渠道商品流通铺货
通过跨渠道的图谱识别对齐能力,帮助商家拓宽一些销售渠道,实现跨渠道的商品流通铺货,从而实现全球一盘货。
04 数字商业知识图谱的开放
开放促进互联,连接创造价值。开放知识图谱是激活数据要素潜力的有力技术手段。数据的价值是在经济活动的信息交互过程中产生的——数据流通越开放,催生的应用场景越丰富;数据连接越充分,其价值也会得到不断放大和提升。因此,阿里巴巴联合浙江大学打造了社会开放数字商业知识图谱合作共建平台:“藏经阁.open (kg.alibaba.com)”, 将本项目中积累的能力和工具,包括DeepKE [5],NeuralKG *[6]*等知识图谱抽取和表示工具,以及一系列知识图谱任务和配套样本数据,向全社会进行开源。
秉承“利用开放的商业知识发现社会经济价值”的理念,依托于开放图谱中的行业知识与标准规范,加速商业生态中各类数据要素的融合与流通,我们希望与社会各界共同打造更多贴近产业核心需求的智能应用,进一步帮助中小企业数智化转型,促进数字商业、数字经济等领域的交叉学科研究,服务数字经济健康发展的国家战略需求。
参考阅读
[1] Logic-guided Semantic Representation Learning for Zero-Shot Relation Classification,COLING 2020
[2] AliCG: Fine-grained and Evolvable Conceptual Graph Construction for Semantic Search at Alibaba,KDD 2021
[3] XTransE: Explainable Knowledge Graph Embedding for Link Prediction with Lifestyles in e-Commerce, JIST 2019
[4] Knowledge Perceived Multi-modal Pretraining in E-commerce, ACM-MM 2021
[5] DeepKE: A Deep Learning Based Knowledge Extraction Toolkit For Knowledge Base Population, 2021
[6] NeuralKG: An Open Source Library for Diverse Representation Learning of Knowledge Graphs, SIGIR 2022