达观数据 | 深度解读知识图谱在工业质量体系中的应用实践
达观数据 王文广
11月12日至11月15日,由中国中文信息学会语言与知识计算专业委员会主办的2020年全国知识图谱与语义计算大会(CCKS2020)在南昌隆重召开。达观数据副总裁王文广受邀出席本次大会并分享《工业质量体系中的知识图谱应用实践》。
1 知识图谱及其构建相关技术
知识图谱是机器实现“认知智能”的关键技术,为了在工业领域的机器能够实现“认知”能力,我们赋予机器领域知识和工业领域的专家经验。这也是我们做知识图谱研究或应用的最主要目的——让机器像人类一样拥有知识,能够像人类领域专家一样做知识型的工作。
达观数据是一家面向To B行业人工智能领域的企业,在日常工作中,王文广能接触和了解到不同行业不同公司对知识图谱方面的需求,也有机会与相应领域的业务或IT人员沟通了解相关方面的情况。他总结出对认知智能和知识图谱应用和利用的三个阶段:接受,行动和成熟。
王文广表示“当前,行业知识图谱的应用普遍处于接受和行动两个阶段,还没发展到非常成熟的状态。对于大多数行业,以及行业中的大多数企业都处于接受阶段,诉求非常普遍,但决心并不大,大都在观望行业的领军企业的行动和效果。而大多数行业的领军企业都已经迈过接受状态,真正进入行动,在今年是特别的明显,几乎所有行业都已经使用知识图谱并初见成效。当然,也有部分行业,比如金融,已经进入行业内企业普遍行动的阶段。未来几年,知识图谱将获得极大的发展,全方位赋能行业中各类智能化或知识型的应用。”
为了促进知识图谱的应用并最终达到上述的目标,达观数据从工程落地角度地对行业进行赋能,包括知识图谱的构建、存储和应用等。构建知识图谱的学术关注点主要集中在非结构化信息抽取,但对企业应用来说,结构化数据的应用也同等重要。在过去很长一段时间里,每个组织机构都有着大量的结构化数据,只有把这些结构化数据和非结构化数据融合使用,才是完整的知识应用。
为此,王文广领导下的知识图谱团队以大数据平台和JanusGraph为基础研发出达观渊海知识图谱平台的知识存储和管理系统,以Spark为基础研发出分布式的映射式构建工具,以深度学习技术为基础研发出了抽取式构建工具,以知识推理和信息检索为基础的知识问答系统,以及以Spark GraphX为基础的图计算系统等。同时,达观数据还为企业提供各类基于知识图谱的定制化开发服务,实现与业务强相关的各类企业辅助决策和知识应用等系统。
下图是达观渊海知识图谱平台的功能和特点一览。
正如大家所知道的,知识图谱的构建与应用是一个复杂的系统工程。王文广表示“在我们在做企业应用落地时,需要迈过的第一个核心点是:知识图谱模式的梳理和设计。”知识图谱模式梳理与设计在学界通常被称为本体设计,在企业应用中它和业务是完全相关的。
渊海知识图谱平台提供了一些列可视化工具来帮助业务专家和图谱专家一起来梳理和设计图谱模式。当图谱模式设计完成后,即可以使用映射式构建工具把结构化数据构建成图谱,而对于非结构化数据,则以弱监督学习的方式来完成知识图谱的构建。
工业领域对构建过程的数据准确性要求非常高,因此在构建环节可以通过人工审核的方式来保证知识的正确性。王文广表示这也正式现在流行的“人机协同”概念,“通过人机协同可以让业务人员参与到知识图谱的构建过程中,从而保证了图谱中每条知识的准确。”
2 知识图谱赋能智能制造
智能制造是大势所趋,从国家战略、行业竞争、企业变革、技术条件等不同维度都可以得看出。现在头部的一些制造型企业非常关注新技术的应用来提升效率,提升在产品研发、质量控制、生产制造过程的竞争力。
智能制造本身是以知识和技术为基础,把生产制造过程跟虚拟系统或其他技术融合,来实现制造过程的感知、决策、执行和演化的过程。那么在这个过程中,知识图谱能够做什么呢?
其实智能制造中是非常依赖工人或者工程师的经验的。大家都知道台积电跟中兴国际所使用的机器设备、原材料等是一样的,但他们对先进制程的把握却是不一样的,从而导致了生产中的不同的“良率”,这里面的差别就是制造和生产过程中的“领域知识和专家经验”。王文广表示“知识图谱最核心的关注点就是知识以及知识的应用,这正是知识图谱赋能智能制造的关键所在,也是能够在未来极大的提升制造业智能化水平的关键途径之一。”
这个图总结了知识图谱赋能智能制造的全貌。首先是制造业非常需要沉淀和传承知识,比如可以将生产线里的经验总结出来并沉淀到图谱里来,这样就可以帮助不那么资深的人解决问题。并且当有人离职,这些经验也将留存下来,为接任者提供帮助,这正是知识的传承。在赋能智能制造中,有非常多场景都是知识图谱可以实现的。这里面有一个非常重要的点是“融入业务”,王文广说“在落地过程中,我们非常强调融入业务,在尽量不改变现有的工作流程来实现知识图谱和AI的赋能。”在此之外,还有就是赋能过程中的可解释性和可运营性。
可解释性 就是指不能只告诉使用者怎么做,还要告诉他整个流程是什么,并且在利用知识图谱分析问题时,把分析过程也展现出来。
可运营性 则是因为数据、经验和知识是会演变的。比如一条产线的机器升级后,其知识和经验跟旧机器是有差别的,如何将这些不同经验在知识图谱中及时更新是非常重要的,这就是可运营性的关键。
3 工业质量体系中的知识图谱应用
工业中产品的质量是产品的生命线,在产品的生命周期中可以划分为四大块:产品规划、产品设计开发、产品生产制造、客户反馈。举个例子:手机在生产之前要做产品规划,可能要提前2年甚至更长时间,得到认可之后才会进行产品的设计开发,设计开发的过程不仅包括产品本身的设计和开发,还有生产工艺和过程的开发,这个过程完成之后才能让产品真正进入生产制造环节,之后还要根据不断的客户反馈进行产品优化。
每一个过程都和“失效分析”有关,当一个产品没有达到预期的情况下会产生失效。大多数情况下失效就是故障,但有些故障不仅是因为物理失效,还包括人为操作的错误(比如精度不达标,测量仪器出问题等),这种错误会导致产品本身没有问题,但是测量的结果有误,类似的故障都是失效。
在工业质量体系中,失效和产品质量具有非常强的关联,解决失效的过程就是产品质量和可靠性提升的过程。跟人们经常遇到的疾病一样,有疫苗来防止生病,而当生病了之后,有特效药来治病。失效也一样,有事前预防失效发生的FMEA,有失效发生后进行“治疗”的FA。
FMEA,即潜在失效模式及其效果分析,它是为了预防失效产生,通常是在生产制造之前预先想好各种可能发生失效的地方,并提前做好相应的预案来防止失效的发生。
FA,即失效分析,它是在失效产生后,用来定位原因,找到解决的方法,并提出改善措施来杜绝未来再次发生。
为了做好工业质量体系中的赋能,基于渊海知识图谱平台,王文广带领的团队开发出了针对性的产品**“失效模式知识图谱平台”**,针对工业质量体系的特点,将失效知识的沉淀、加工、连接、融合和追溯融入到知识图谱平台中,形成对质量体系过程中的失效分析报告FA、失效分析树FTA以及FMEA等知识和经验的图谱化。这里面涉及到非常复杂的系统性工程,包括:
- 资料收集:使用爬虫、数据库对接、RPA、消息队列等;
- 知识加工:包括实体抽取、领域词的识别与管理,采用了前沿的NLP技术,包括句法分析、事件识别等;
- 连接:实现了关系和属性的识别,规则引擎、分类和聚类算法来协助业务人员进行人机协同,事理逻辑的识别;
- 融合:充分利用了SOTA的知识融合算法,包括图的表示学习、图神经网络等,同时也支持人机交互,充分考虑了人机协同的友好性;
- 追溯:知识图谱中的每一条知识,都支持追溯到原始的出处,即方便验证数据本身的可靠性,也能够进行有效的权限管理,还有助于实现知识的更新。
在应用方面,达观失效模式知识图谱平台实现了八大核心应用来帮助智能制造企业赋能质量体系,提升其产品的竞争力:
- 基于FTA的失效归因分析
- 基于FA的失效类案辅助分析
- 基于FMEA失效模式追溯分析
- 失效分析专家举荐
- 失效改善措施宣贯
- FMEA的辅助制作
- 失效知识问答
- 个性化学习
针对达观失效模式知识图谱平台这个产品,负责人王文广这样说:“失效模式知识图谱对智能制造企业的FA、FTA和FMEA等各类知识进行图谱构建,对人机料法环测充分挖掘,建立起失效知识之间、失效知识与人之间、失效知识在时间上的演化等多维度的连接。这样构建出来的失效知识图谱能够有效支撑八大应用,并将其融入到质量体系中与失效相关的各个流程,发挥出企业所积累起来的知识的价值。”
这些知识的价值,也就是知识图谱赋能智能制造企业所带来的价值,总结来说有两方面:一方面可以降低工程师在做失效分析时的经验要求,帮助初级的工作人员能够实现专家级别的失效分析的水平;另一方面是可以更好的培养新员工,使得员工成长到同等水平的培养周期更短。
在此之外,王文广还说“更为根本的是,企业的知识财富不再遗失,得以积累。这些不断积累的知识财富就如同金钱财富一样能够带来复利,假以时日将能够扩大企业的竞争力,拉大与竞争对手的优势。”
最后,达观知识图谱团队负责人王文广这样总结:“我们希望利用自然语言处理、知识图谱以及一切前沿的人工智能技术,帮助智能制造企业充分利用好企业的知识财富。我们从知识的积淀、加工、连接、融合、应用、溯源等全方位提供赋能。我们帮助企业降低对领域知识和专家经验的获得和利用的成本,并使得智能制造企业的优秀和资深员工能够不再为琐碎的事情环绕,而能够专注于创新上,为企业带来更大的价值,也为中国智能制造产业升级助力。”