中国电力科学研究院 | 电力领域知识图谱技术进展与应用
分享嘉宾:谈元鹏 中国电力科学研究院
编辑整理:monk 国家管网
出品平台:DataFunTalk
导读: 知识图谱相关技术在开发和应用过程中,通常需要跟行业或者业务领域进行高度融合。但是在行业知识图谱构建过程中,无法把传统行业和IT部门或知识图谱团队进行简单对接,导致数据标注及知识的消化理解比较困难,难以形成如图像识别一样的知识高能力应用。行业知识图谱的构建往往需要行业和技术人员双方彼此的沟通对接,中国电力科学研究院有限公司人工智能应用研究所就充当了一个行业和技术的对接桥梁角色,尝试构建了一套电力领域知识图谱。下面将从5个方面介绍电力知识图谱的构建:
- 人工智能应用所简介
- 电力知识工程的背景、内核及发展历程
- 电力领域知识表示与图谱构建
- 电力领域知识图谱的应用实践
- 电力领域知识图谱的未来挑战
01 人工智能应用所简介
人工智能应用研究所(人工智能所)成立于2018年,是国家电网有限公司唯一人工智能应用技术的重要研究和支撑机构,聚焦电力领域智能感知、大数据、智能平台、智能认知和智能应用五大研究方向,全面支撑电力人工智能应用类技术的科研攻关和推广应用。
下设智能感知研究室、大数据应用研究室、平台技术研究室、智能认知研究室、智能技术应用研究室5个专业研究室,以及综合管理办公室1个管理部门。人工智能所拥有员工近70人,平均年龄32.7岁,硕士及以上学历占比100%、博士占比34%。本人是来自于智能认知室的技术负责人,智能认知研究室主要做的是图像识别、知识图谱、图计算技术,包括设备的故障诊断等方面的研究。
此外,我们所还承担了中国电机工程学会人工智能专委会、中电联人工智能标准化技术委员会、IEEEPES人工智能分委会、中国人工智能学会智慧能源专委会,以及中国人工智能产业发展联盟(AIIA)挂靠工作。建立了各类电力人工智能科研平台,借此打造了一个比较好的电力人工智能的学术平台和科研平台,为电力人工智能学术生态奠定了基础。
02 电力知识工程的背景、内核及发展历程
电力系统作为一种资产庞杂、知识密集的电能生产与消费系统,支撑着多种能源的转换、互联、传输、交互,涉及 发、输、变、配、用等多个领域的系统性知识。我们做过很多知识工程,但以前的知识工程都集中通过专家经验去构建一些专家系统,以实现规则化或者逻辑化的表征。
近年来,随着我国能源互联网企业建设进程的逐步推进,电力领域知识体系愈发呈现出开放式、扁平化、边界模糊的发展趋势,进一步加剧了电力系统智能认知的复杂性。亟待引入知识图谱这一新兴工程技术,以结构化方式刻画电力系统中的概念、实体、事件及其间的关系,推动电力人工智能有序发展。
领域知识图谱作为一个复杂的因果网络,其中设备、人员、单位、事件、动作都是普遍关联的。这导致在知识图谱中沿着任意一个实体开展语义推理分析均容易超出预想的知识边界。之前有些电力专家提出过电网天然一张图的思想。从人的角度来讲,人最大的网络是社交网络。从实物的角度讲,电网包括涉及到的电力设备、场站、线路设备的部位部件等,其实也是一个真实存在的庞大天然物联网,因此成为了特别适合用图结构去表征的试验场地。行业专家与学者普遍认为:知识图谱在集中应用简单的场景更加易于成功,而智能客服、智能推荐等领域的应用成功实例也在一定程度上归功于其知识体系相对封闭。
因而, 领域知识图谱在电力系统中成功应用的一大先决条件是电力领域知识的需求细化、闭合,即能找到一个有限的知识子集支撑电力领域的特定应用需求 。也就是说,我们能在电力领域需求的知识里面找到一个闭包子集,去特定化相关需求,才能把知识图谱及相关应用做好。
在过去的三十余年间,电力公司围绕着调度、运检、营销、基建和物资等各业务部门所提报的业务需求,进行了知识工程的开发,旨在实现由数据到知识、由感知到认知的提升。然而,传统信息化工程产物仍处于对电力数据和知识简单应用,缺乏对知识体系的全面把握,缺乏对电力业务认知推理,其粗犷式建设模式不再完全适应我国电力公司的发展需求。 另一方面对内知识得不到贯通应用,对外难以形成辅业公司与外部行业主动支撑,使我国电力公司面临着互联网转型的困难 。
为了辅助我国电力公司打破知识孤岛,实现业务协同和数据贯通。支撑电网与新兴业务发展,专家学者近年来在 电力调度 、 电力运检 、电力营销等诸多领域提出了基于领域知识图谱这一新兴认知方法的技术路线和应用案例。
在电力调度方面 ,专家学者的主流工作仍集中于对自动语音识别(Automatic Speech Recognition, ASR)、自然语言处理(Natural Language Processing, NLP)和DKG技术的组合应用。
例如,闪鑫等人提出基于人工智能的调度控制系统框架,并对基于知识图谱智能辅助决策与语音助手开展研究;周帆等人多源电力调度模型知识构建调度领域知识图谱,进而实现图谱内本体相关问题的自然语言理解与查询语句拼接;刘广一等人利用图数据库对配电网拓扑进行存储,提出“电网一张图”运营指挥系统的平台结构;乔骥等人基于DKG技术实现了故障信息解析判别、智能辅助决策以及多维度人机交互,验证了数据与知识双驱动的电网拓扑数据分析研究在业务中落地应用的可行性;高泽璞等人整合多个低压配电网信息系统中的数据,挖掘各数据之间关系并构建出低压配电网拓扑结构,实现了对低压配电网信息系统中的户变关系的辨识。
在电力运检方面 ,由于近三年内我们在电力系统里面做了很多图像识别、目标检测等智能巡检的一些研究工作,受电力巡检影像基础研究的影响,设备的运维检修板块也是近年来比较新兴的板块。电力巡检影像分析等人工智能应用的兴起,为DKG的研究应用打下了良好基础。专家学者以电力设备为核心,领域知识图谱相关的研究工作在细分业务点上相对深入。
例如,张敏杰等人基于语义网、知识图谱及自然语言处理等技术,提出基于的框架以支撑变压器智能管理;赵振兵等人利用螺栓螺母之间的关联组成栓母对,采深度学习与先验知识结合的方法建立知识图谱,以指导对栓母的缺陷分;刘梓权等人利用设备缺陷记录语料构建电力知识图谱,提出利用图搜索进行电力设备缺陷检索的方法;Tang等人提出面对多源异类电力设备数据的设备缺陷知识图谱构建方法,改进图搜索以展示检索结果的期望信息;杨强等人则采用领域知识图谱整合展示电力设备全寿命周期数据,揭示实体与业务对象之间的关系;汤亚宸等人利用领域知识图谱进行规则推理,实现涉及设备、厂家、站/线、公司、质量、事件的高效分析查询。此外,赵振兵等人提出建立具有一定普适性且专业较强的知识图谱,通过DKG实现跨媒体数据在知识层有机互补的创新提议,提升输电线路关键部件视觉检测的能力。
在电力营销方面 ,专家学者的研究工作暂时与其他行业客服的主流技术路线基本一致,基于ASR、NLP与DKG的技术组合实现电力客服业务中智能检索、智能问答、主动外呼能力的整体提升。
例如,饶竹一等人提出了基于知识图谱的电力客服知识库构建、检索方法,设计形成智能客服系统技术方案;Cheng等人结合电力客服的业务需求,提出了集成客户本体、数据本体以及推理引擎的三级电力客服知识图谱架构;梁林森等人则针对地方特色开展了智能95598支撑技术研究;像天津、湖南等地,打95598直接就接入智能语音机器人。南网现在也在探索情感识别,用于判定在语音机器人进行智能问答的过程中,是否会对人的情感造成一些投诉的风险。谭刚等人针对基KG问答系统中存在的中文问题表达模糊等问题,提出融合领域特征知识图谱的电网客服问答系统,实现了以较低的响应延迟提供高准确率的回答。然而,就总体而言,电力营销领域中的DKG应用数据来源相对封闭,未能凸显互联网化运营理念;认知推理能力有待进一步增强,亟待引入情感分析、多轮对话等技术并使之固化形成业务能力。
03 电力领域知识表示与图谱构建
1. 电力领域知识表示
知识图谱技术作为一个工具落到某一个行业领域,与普通的知识图谱构建或者是开放域的、开源的、广域的知识图谱构建到底存在什么样的区别呢?
由于电力领域知识来源广泛,有来自传统的电力知识工程系统、专家经验知识库等的结构化数据,还有电力标准、制度、法律、法规以及专家、技术人员的经验等半/非结构化数据,可按照复用程度的差异划分为通用知识和专用知识两大部分。
其中,例如部分电力设备的名称、电压等级、容量以及单位组织架构等信息在客服、调度、运检、安质等多个业务领域均有需求,我们称之为电力领域通用知识;而客服领域中的用户名称、电费、电价等信息相对专用,在调度、运检、安质等业务领域涉及概率很小,甚至完全不会出现,我们将之认定为电力领域专用知识。
值得一提的是,电力领域通用知识与专用知识之间的界限往往是模糊的,实际操作时需要根据实际业务进行统计分析以判定通用、专用知识之间的边界。因此在概念层和实例层之间我们还划分了一个业务层,主要是电力行业的一些动作知识。以检修为例,电力设备部位部件的缺陷信息势必会涉及到检修的操作,我们会把标准里面提到的规则或规范性约束条件在业务层进行存储以开展维修。
接下来谈一下 数据结构 。数据结构本身其实包含逻辑、组织结构、操作、和约束。电力板块跟传统图结构数据的体量、特征没有典型差异。唯有一点是电力板块去做知识图构建过程时,很多东西是物联网的架构,网络拓扑和知识图谱的拓扑是能够重合的。电力设备的部位、部件相关的信息,天然就构成了一个拓扑图,完全可以把这个拓扑映射到知识图谱板块,这是电力领域应用知识图谱的一个最大优势。
2. 本体构建
领域知识图谱的本体构建方法主要包括由知识驱动的 自顶向下 (Top-down)式、由数据驱动的 自底向上 (Bottom-up)式以及两者的组合方式。其中,自顶向下式是指通过业务专家人工编制或利用已有的结构化知识库获取电力领域知识本体的结构信息,进而将知识本体加入到知识库;自底向上式则是指从开放非结构化数据中提取实体、概念、关系、属性、属性值等信息,选取置信度高的对象作为候选,分析归纳成底层结构信息,逐层向上最终形成知识本体并加入到知识库。
电力领域数据来源广泛,传统电力知识工程系统、专家经验知识库等结构化数据,可直接用来指导知识图谱本体自顶向下的构建 。同时,电力领域实际业务中所产生的各类数据以及专家、技术人员的主观经验等半/非结构化的数据也蕴含了丰富的电力领域行业知识,为确保知识图谱本体的完备性,利用信息提取技术对此类数据中的电力知识加以识别,并对识别的结果进行归纳抽象,最终将抽象出的概念映射或补充到电力领域知识图谱本体中,从而实现本体自底向上的构建。自顶向下、自底向上结合的本体构建方式,既能够传承固化电力领域现有数据库中的相关经验知识,又能实现对新知识的发现,故在实际构建电力领域知识图谱本体时,通常采取两种方式相结合的方法。
目前国网公司、南网公司和大唐等能源企业,用top-down这种形式居多,即在业务专家进行指导下直接去构建相关的知识图谱本体框架。主要是因为这样的构建方法有两方面的优势,第一方面优势是多年的运营过程,能源企业都做了一些信息化系统,这些信息化系统的背后有数据结构表单,表单本来就已经形成了电力领域知识图谱,可以参考数据结构的架构;此外就是在图谱本体构建过程中,像电力的营销领域、调度领域、运检领域,有一些营销客服话术,运检调度的一些应急响应预案,自然就是事件和动作相关联的,出现什么事件怎么样去做或出现什么样的trigger怎样去做响应等,这些都是构建电力领域事件图谱非常好的素材。
04 电力领域知识图谱的应用实践
1. 领域知识图谱应用架构
在电力领域知识图谱构建中,我们发现知识图谱作为一种语义网络,在电力大数据的赋能下诚然已经能够解决许多实际问题; 但单纯依靠知识图谱技术并不能完全响应我国能源互联网的数据特征与发展趋势,难以表达电力系统中涉及到的丰富语义,因而充分利用现有知识工程资源,并不能将其视为一剂包治百病的“万能药” 。而应将知识图谱作为实现低成本、快速响应的部署和转换,为电网公司带来收益的最大化。
一方面,在调度、运检、安质等业务领域中存在着丰富的if-then规则信息,不易利用领域知识图谱表达。特别是对于if A and B then C等并发事件规则,其条件部分的子表达式之间的关系可以出现部分极为复杂的情况,利用领域知识图谱难以表达。同时,电力行业公司中存在大量的if-then规则信息乃至其他知识表示规则下的信息已经在过往的信息化工程建设中被维护在了专家知识系统中,亦或已经突破了知识图谱技术的原有范围。
知识图谱传统的研究往往是去做最优路径搜索研究,去发现最优通路,但是很难找到两个起点紧接到最终一个终点这样的路径。这种需求以前的研究里面很少涉及。解决方案有两种,第一种的是改变这个知识图谱的schema,让两个起点一个终点的这种情况变成从一个起点出发,必须过某种属性的一个节点,最终到达终点,这样就把刚才说这个if a and b then c变成了if a and b are confirmed then c这种方式。第二种方案是,不去做最优路径搜索,而是做图结构分析,或者图分类任务。
若能利用领域知识图谱辅助与引导对专家知识系统中知识元进行合理“利旧” ,对新生知识元进行基于Seq2Seq等数据驱动算法模型的“求新”,将有助于人们短、平、快的解决更多的实际问题。
另一方面,能源互联网的数据特征及其互联网化的发展趋势,注定其中的数据、知识将逐步区别于传统电网数据,呈现出显著的动态、隐形、主观等特性。知识图谱技术侧重于表达实体、概念之间的语义关联,而上述语义关联大多是静态的、显性的、客观的、明确的,而实际应用中对过程性、决策性知识是有着大量需求的,这些知识大部分是 动态的、隐形的、带有一定主观性的 ,如规划设计、发展决策、运检决策、调度决策等。虽然一线的工作人员与专家能够凭借自己工作所得或口耳相传的经验完成本职工作,但单就其中部分业务的内在规则而言仍是模糊的。部分电力行业公司曾提出以标准化或激励制度的方式促进企业内的知识表达与沉淀,但收效甚微。其关键问题在于 一线员工、工程师、研究员等领域专家也难以清晰的对相关知识进行表达 。传统知识工程通过专业的知识工程师协助领域专家进行知识获取,但总体上的 代价太大,过程太重,不易成功,有赖于数据驱动的知识挖掘技术的引入与应用 。
因此,我们提出了基于NoDKG思想的电力领域知识图谱应用架构。通过结合使用图数据库与关系型数据库,合理划分结构化、半结构化、非结构化数据的存储与调用方式,解释了框架如何应对动态、隐形、主观性的知识,提供了一种领域知识图谱与现有专家数据库有机融合的途径。
基于NoDKG的电力领域知识图谱应用架构覆盖数据获取、图谱构建、知识计算以及图谱应用等四个层级。
第一层是数据获取 ,属于框架的底层。获取对象包括结构化数据信息、半结构化的和非结构化数据信息。此外还有电网公司企业之外引入的数据。比如进行电力巡检过程中,关注电网公司内部的标准制度之外,还要去关注国家标准、行业标准、IEEE或者ITU等国际标准。这些就属于是外部信息,再比如进行设备的采购、运维、检修的过程中,对设备厂商的需求,可能会对天眼查、企查查等企业之间的关联、穿透关系、股权分析有数据需求。总体来讲,数据获取层一般都是以excel、csv或者json、xml等文件进行导入、读取和存储,然后把它解析成概念、实体、关系,还有属性、事件等相关的知识源。
第二层是图谱构建层 ,作为电力领域知识图谱应用架构的核心层承载自然语言处理、知识抽取、知识融合以及知识加工能力。同时,规范要求采用图数据库存储实体(属性值)、概念、关系(属性)、事件并实现多对多关系管理,通常涉及Neo4j等面向属性图的存储系统或gStore等面向RDF图的存储系统两大类别;采用关系型数据库管理文件、视频、图像、音频等多媒体数据以及一对多关系,并通过“id_name”连接彼此。其中,可考虑将关系型数据库的“id”、“name”等变量信息作为属性值存储在图数据库内的领域知识图谱中,用以实现对高效检索、认知推理的能力支撑。
第三层是知识计算层 ,负责集成表示学习、关系推理、属性推理、事件推理、路径计算、比较排序等通用算法模型,为图谱应用层提供算法支撑。
第四层图谱应用层 ,负责提供智能搜索、智能问答、智能推理、智能决策、知识处理及第三方应用,作为电力领域知识图谱应用架构所产出的最终功能模块与实际应用场景进行对接。
2.领域知识图谱应用实践-电力调度故障处理
在电网调度业务中,采用调度故障处置管理规定、故障处置预案、调度规程及异常监控手册等文本数据以及从D5000系统导出的结构化数据,根据一线调度人员的业务经验与业务规则,自上而下的搭建基础本体架构,然后利用概念抽取工具及关系抽取模型进行自动化识别,识别结果经业务专家抽象校验后形成自下而上的类别体系,与基础本体架构融合,构建最终的电力调度知识本体架构。基于本体架构,利用Bi-LSTM-CRF模型实现调度故障实体识别及属性抽取,根据电网故障数据特征,利用Bi-LSTM+Attention模型进行关系抽取及分类,经实体链接与知识补全后,实现电力调度领域知识图谱构建。
一般我们会画如下的一个架构示意图。首先包括了调度相关的文本数据,如调度、调规、应急预案、调度细则、调度报告。此外,也会去存电网故障数据、调度系统的结构化数据,进行结构化和半结构化的文本解析,解析之后共同形成调度领域的知识图谱。非结构化数据的我们会采取mysql或者sql存储,进行图结构数据和关系性数据库的联调,联调之后共同作用于相关的故障处置判断,包括电网的异常情况、故障类别的分类,还有设备故障的溯源,故障原因的分析。最后进行故障处置,包括信息的汇总、负荷的转移、事故的拉路,试送的恢复等,最终把这些功能模块进行前端人机功能展示,形成业务能力。
3.领域知识图谱应用实践-电力运检工单处理
在电力运检业务中,使用输电架空线路工程台账、工单、工作票、修试记录等业务数据以及检修相关标准文档,根据一线检修人员的业务经验与标准文档中所述业务规则,人工构建了覆盖设备、部件、部位、缺陷、故障、描述、原因、解决方案、场/站/线、单位、人员、持票种类等信息在内的输电架空线路工程运检知识基础本体架构,然后利用自动化抽取工具进行知识提取,运检业务专家对提取结果进行审核抽象后,自底向上形成一套知识体系,该体系与基础本体架构融合形成输电架空线路工程运检知识本体架构。基于运检知识本体架构,采用Bi-LSTM-CRF、Bi-GRU-CRF等算法,由业务数据与标准文档中实现自底而上式的图谱构建。
工单是指巡视人员去现场看了哪些设备,存在哪些故障,会把故障信息记录下来形成一个工单。工单会交给后面的检修人员去进行相关的设备检修维护。检修人员拿到工单之后会开出工作票,工作票记录比如哪个设备坏了,应该如何去修。工作票派发给一线工作人员到场站线进行维修操作。修完后会形成一个检修测试记录。这三个表单之间是顺承的关系,工单和工作票往往是一对一或一对多的关系,而工作票和修试记录往往是一对一的关系。如果整个修试记录完成了工单所有内容,那么在检修业务上就进行了一个闭环。
人工去构建运检领域的知识图谱过程中,会涉及到设备部位、部件缺陷、故障以及相关描述、原因、解决方案、场站线信息,单位人员持票等相关信息,然后自上而下形成一个知识体系,相当于去做了一个top-down的schema构建,之后相关的数据就可以去用实体、关系分类模型去把它通过数据训练模型,直接生成图谱了。
工作票的生产过程中也可以去做一些病因的分析,包括故障的溯源、智能处置和标准的推荐。例如制造设备出现了一个故障信息之后,就能知道去哪个标准里面查,标准应该是采用哪一条,以及设备故障的可能原因等等。工作票生成之后进行一个修试记录比对。我们团队采用ASR去做语音数据的转写,相当于是现场的人员通过语音录入的形式,把自己完成这个工作的信息进行记录,属于管理上留痕的操作。此后转出来文本再去进行语义比对,看他有没有对这个工作票工单的信息进行响应,进而形成人际交互的响应。
4.领域知识图谱应用实践-电力客服智能问答
在电力客服业务中,利用95598客服知识库标准问、坐席客服记录、对话语音等业务数据,根据一线客服人员的业务经验及客服话术流程所述业务规则,结合自动化知识抽取工具与业务专家相结合的方式自底向上构建的电力客服知识体系,构建形成电力客服知识本体架构。进而,利用基于置信度传播的概念抽取模型以及Bi-LSTM-CRF模型实现客服领域实体识别;利用基于概率因子图模型的实体多关系联合挖掘模型抽取关系,并采用实体-主题模型和主动学习的层次学习算法实现关系的分类,经知识融合和知识校验后,实现电力客服知识图谱构建。
05 电力领域知识图谱的未来挑战
1.应用方向
首先从业务需求方向来讲,为全面推进传统电力行业的互联网化进程,电网公司势必会在未来几年内跟服务业公司加强联系,同时与房地产、电商、家电、保险等行业开展跨行业合作,电力领域知识应用会更加开放。
相应的,技术需求会有以下四大类:
- 智能搜索
知识图谱是语义搜索的大脑,智能语义搜索借助知识图谱的帮助,对用户查询关键字进行解析和推理,将其映射到知识图谱中的一个或一组节点上,并根据知识图谱中层次结构,返回相关知识。智能语义搜索由谷歌提出后,在行业内得到广泛应用。百度的“知心”、搜狗的“知立方”,利用知识图谱技术提升用户开放域知识搜索体验,而国网英大推出的中国电力百科网、中国电科院在研的智能标准制度检索系统,则用以支持电力领域百科、标准知识的快速获取。随着电力企业内外业务部的服务渠道越来越多,智能搜索也将拥有更广阔的应用前景,比如支撑电力用户进行电费电价政策检索、调度领域员工进行故障知识的查询等。
- 智能推荐
推荐系统是人与信息的连接器,用已有的连接去预测未来用户和物品之间会出现的连接。推荐系统本质上处理的是信息,它的主要作用是在信息生产方和信息消费方之间搭建起桥梁,从而获取人的注意力。推荐系统作为互联网和电子商务发展的新兴产物,在电力行业公司中大多应用于客服、电商以及传媒业务。此外,中国电科院还采用领域知识图谱开展了专家遴选技术的相关研究,以支持国家电网有限公司的科技项目评审业务。基于领域知识图谱的智能推荐在电力系统的应用市场极为广阔,从总体上划分为基于个体评价的智能推荐与基于群体规律的智能推荐两个类别。
- 智能问答
智能问答可以看做是一种信息检索的高级模式,系统将知识图谱看做成一个完备的知识库,首先对自然语言表示的句子进行分析,将问题转化成对知识图谱的查询,然后在知识图谱中查询答案并返回。基于知识图谱的智能问答应用广泛,如亚马逊的自然语言助手Evi、苹果智能语音助手Siri和出门问问手机应用等,覆盖了出行、电商、手机等多个行业。此外,国网客服中心在研的基于知识图谱的客服智能问答系统,有效地提升了工作效率,降低人工参与成本。
智能问答不仅在公司内部业务场景应用广泛,其在辅业公司业务中也具有多样化的潜在应用。比如在电力保险行业、金融行业进行复杂业务知识解答,在电动汽车行业进行交通信息查询。
- 智能决策
智能决策是指结合人工智能和知识工程,更充分地应用描述性知识、过程性知识、推理性知识,进而通过逻辑推理来帮助解决复杂决策问题的辅助决策。目前,在电力行业运检、调度以及科技等多个业务领域均已开展了针对基于领域知识图谱的智能决策的理论探索与技术研究工作。中国电科院基于上述理论构建了输变电运检领域知识管理与认知推理平台与科技项目辅助决策系统,实现工作票智能生成、修试记录智能比对、科技项目查重。
随着诸多专家学者对电力跨媒体数据研究的不断深入,基于领域知识图谱的智能决策未来有望进一步在电力行业调度、配网运检、综合能源管控以及需求侧响应等方面崭露锋芒。
2.未来挑战
- 挑战一:混杂数据下的知识提取与图谱构建
从电力系统中获取的知识通常具有信息广泛性、多源异构特性,且有时伴有歧义、噪声与冗余。对于知识图谱而言,歧义表现为实体、概念的属性描述缺乏精确性、一致性或实体间关系错置、扭曲,使得图谱结构混乱及语义描述相互冲突,可能导致推理机制紊乱、推理结果失真;噪声作为互联网化数据的显著特征,一定程度上稀释了数据信息内容和价值密度;而冗余则表现为在图谱中产生大量孤立、无用的实体和属性关系,占据大量的存储空间和关系路径,使图谱实体层变得冗余、繁杂,导致存储资源的浪费和图谱推理应用的低效。如何将电力领域知识元与互联网大数据有机融合起来,构建、更新大规模、结构清晰、可解释的电力领域知识图谱,并赋能使之在混杂数据下自主进化,是实现电力系统智能化发展的必由之路。
- 挑战二:电网拓扑下的认知推理与辅助决策
目前,领域知识图谱技术已经在运检、调度、客服等业务中实现初步应用。现有的知识推理模型往往需要大量高质量的样本进行训练,获取样本成本较大。而专家以及一线工作人员则可以依据先验知识与小样本数据对于电力拓扑以及运行数据进行分析判断。另一方面,现有的知识推理实现方式,可解决大部分领域和业务场景的复杂计算需求,但对于计算资源和存储资源的占用较大,且现有算法效率存在瓶颈,应用到电网系统大规模数据时往往无法满足实时、准实时或及时的计算决策要求。如何在领域知识图谱框架下实现对电网拓扑数据等原生数据的高效利用,仍是为了推动数据-知识双驱动的电力智能信息处理系统发展的必要研究。
- 挑战三:领域知识图谱的质量评价体系
对领域知识图谱的质量评价,大多针对实体、关系、属性三类数据,通过构建标准测试集或人工抽样的方式实现。中国电子技术标准化研究院于2019年8月在第二届智能制造高峰论坛期间发布了《知识图谱标准化白皮书》,称“大规模知识图谱的应用场景都是针对特定的任务需求,如何选择恰当的算法并对不同的算法进行统一的评定,进而实现图谱的智能化应用仍然是一个研究重点”。此外,电力行业公司在引入领域知识图谱技术时,往往旨在提升已有信息化系统、模块或任务的性能,通过其性能或效果的提升来间接反映领域知识图谱的质量,但仍缺乏系统化的质量评价方法。
- 挑战四:领域知识图谱的应用开发技术
随着电力市场化和服务专业化的浪潮,负荷集成商、微网能源运行商、智能运维商、数字节能服务商、需求响应服务商等一大批新兴“线上+线下”数字化服务企业即将出现,这将给电力行业公司的信息化工程带来数字化浪潮的巨大冲击。面对由信息服务到知识服务的转变,有必要提出知识图谱构建中间应用的技术与平台,基于知识图谱构建出检索系统、问答系统等符合业务需求的应用工具,以服务不同的行业和应用。如何提出一套基于领域知识图谱构建特定业务应用的方法论,根据特定业务应用的数据需求,从已有大规模的电力领域知识图谱中划分出所需的子图,以低人工投入构建出高质量特定业务领域知识图谱,用以支撑相关数据产品的研发与迭代,是电力领域知识图谱工程实现中的又一项挑战。
06 总结
电力领域知识图谱,旨在利用结构化方式刻画电力系统里面的实体概念、属性、关系相关信息,形成更有效的跨媒体大数据的组织管理和认知能力。我们不认为它是一个万能药。但是我们希望在电力系统的应用过程中,知识图谱能够不断的进行规范完善,进而使电力领域知识图谱满足电力公司的发展诉求,找到适用之道。
07 精彩问答
Q:IEC61850规范能转化成电力知识图谱吗?怎么做的?介绍一下相关的工作。
A:IEC61850属于比较比较专业的一个问题,因为IEC61850是一个系列标准,相当于是一个标准簇。从标准簇来讲呢,他涉及到整个电力行业,尤其是变电体系,变电调度系统体系。然后紧接会有相关的标准规划。我们很难把整个标准套用过来,但一般来讲,电网公司里面都会有一个符合IEC61850,或者是相关的一个信息化模型的表征表,像国网公司的说话是sp-cim,南网公司应该是trs-cim,那么这个体系其实是可以对知识图谱构建能形成比较大的帮助的。
Q:电网一张图是典型的场景应用,请问这个应用覆盖了多大的区域?
A:电网一张图这个概念是国网公司以前刘广一老师这边提出的,如果感兴趣可以从知网去搜索一下刘广一老师的论文。一般来讲电网一张图是一个理念,一张图这个事情其实因为电网公司去做实物资产管理时候,涉及到场站线相关设备,还有设施的维护过程中,发现物联网的拓扑结构是可以直接拿过来作为图结构数据进行一个表征的,它里面的场站线设施的一些信息,进而也就变成了某一个节点的相关属性。这可能是把现实世界的电网信息影射到数字世界的一个比较好的方式。