Fork me on GitHub

工业数据治理和数据资源化思考与实践

导读: 近年来,数据治理和数据资产化成为了工业数字化进程中的重点,得到了越来越多企业的重视。如果您是企业数据技术团队负责人,负责数据治理或者数据管理相关工作,董事长或总经理需要围绕企业未来产业发展,要求你把数据治理工作落实、落地,做大、做强,应该如何怎么去开展工作呢?本次分享关注的就是工业产业怎样和数据技术去结合,怎么让数据价值去落地变现。工业大数据创新中心更多专注于工业领域,我们将尝试从上述角度出发,分享一些我们在数据治理最后一公里实践过程中面临的挑战、获得的经验和和进行的思考。

本次分享主要分下面 4 个部分:

  • 背景
  • 实践
  • 思考
  • 总结

分享嘉宾|钟虓 北京工业大数据创新中心 业务总经理
编辑整理|monk 国家管网
出品社区|DataFun


01 背景

工业数字化这个领域工业大数据创新中心已经做了差不多有十年了。十年前,当我们去跟工业企业的领导谈数据、谈数据价值的时候,还要从最基础的概念,比如什么是大数据技术开始讲,但这几年基本上都不用谈这些了,几乎所有工业企业都已经把数据技术、价值和自己企业的产业发展和未来业务发展紧密结合起来了。产生这些变化的原因不仅仅是国家在大力推动,也包括了企业自身行业发展,企业数字化转型发展的需求。

图片

从另外一个角度,上述变化其实也反映了企业不仅认知到数据的价值,而且更进一步,尤其是“十四五”数据经济提上日程之后,大家对数据技术和产业结合,产业价值落地的进程实施也越来越快。在企业内部和“提质增效、节能降耗”、“高质量发展”、“双碳目标”、“产业数字化转型”结合,甚至有很多企业已经开始对外把数据资源服务作为开源增收、业务创新、多元化发展的一大利器。

图片

这样的现象,不仅针对各个行业的单点企业,现在已经在整个行业、产业链去延展。比如新能源、工程机械、电子制造等一些行业,不仅仅停留或满足于卖设备,而是在此基础之上去附加数据增值服务。几大发电集团在进行电站规划建设实施、招投标时,都会把数字化能力作为对上游企业的一个考察能力项。产业链形成更高效的协同,需要提升整个产业链的数字化水平,而不仅仅是一家企业的提升。

在当前的大背景下,数据在中间发挥作用就越来越越多。数据已经真正成为企业的重要资产,是生产经营的核心要素,是企业从过去自动化、信息化向未来数字化、智能化转型升级的关键要素。这点基本上已经成为行业公认的共识。

图片

但在落地过程当中,大家会面临很多的问题。如果真正从数据价值落地的环节,以终为始倒推来看,最困难、最具挑战的环节实际在于数据。比如数据怎么获取?获取之后如何进行治理?如何让数据达到业务落地的质量要求?怎么加快数据效率?等问题。我们访谈了很多的工业企业,也了解过他们在数字化转型过程中的实践努力,基本上所有企业都会认可整个过程中 80% 左右的精力和时间是花在数据环节的。下图是我们梳理的数据治理流程。

图片

一个好的数据基础为后面数据价值的挖掘,数据创新,迭代效率提升非常有帮助。进一步,企业要想进行内部跨部门协作,甚至企业间的高效协同,建立高质量的、易于理解的,可沟通的,普适认知的数据标准又是整个过程的基础。再进一步,围绕数据价值链,各协作方去打破边界,产生知识和数据的交流,去减少冲突,然后达到全局最优,数据治理是这件事情的基础。再往前,企业生产过程中,特别是当环境有很多动态性、变化性需求,生产制造企业如何从上游设计一直到后面整个交付过程中,更快的,更动态的去匹配上述市场的变化?数据在整个过程中如何为收益增加产生更大作用?

数据治理是数据价值能够得到持续释放的重要因素。数据治理工作是一件需要长期持续的事情。大家都知道“故事好讲”,就是数字化的场景这个故事是很容易讲,但长期持续去释放价值则是很具有挑战性的。

如何利用数据治理的能力去提升数据价值,释放这样持续可靠性和质量,是我们在工业领域进行数据治理的一个目标。 数据最终还是为业务去服务的,提供更高效的数据资源和数据相关工具,让数据的挖掘、业务结合变得更容易。让更多的人,更多的团队,更多业务流程参与进来,赋能工业用户,是我们数据治理的核心的价值。下图是我们总结的工业数据治理价值的一些体现。

图片

下面从另外一个角度,描述一下 工业数据治理的挑战 。工业数据从技术角度从下往上看,本身的“接存管用”具有多种特征,比如工业数据本来就是多元异构的海量数据,具体来讲有以下特征:

  • 数据是分散的。来源很广,包括信息化的系统,也包括生产系统,传感器监测系统采集的数据。
  • 数据是多维的。数据类型上工业实际数据也包括结构化的设备台账数据,非结构化的工业视频,业务上覆盖了“人机料法环测”多个维度。
  • 数据量巨大。生产过程的核心要素数据量是非常大的,比如我们采集的风力发电机组、大型风机、半导体产线,它的数据量非常大。数据采集频率也很高,比如高频振动数据。此外,设备上相应的数据采集点也越来越多,海量多源异构的数据都需要去治理。

图片

不仅仅数据接入和使用的问题,数据治理绕不开的一个问题是怎么和业务去结合。工业生产过程中,生产复杂度高,可能有上百工序,上千台的机台,有些复杂的生产工序可能长达几个月,如何把这些数据有机的组织起来,进行资源化,甚至未来资产化,为上层业务服务。在这个过程当中有很多技术问题需要去处理。整个过程数据是动态变化的,从定义到精度都不是一成不变的。工业生产过程中数据都是动态化的,工艺的提升、主控程序升级、传感器升级换代等都会带来整个过程动态化,这是工业领域数据资产化我们面临实际困难和挑战。

02 实践

实践方面,这里分两大类和大家进行简单分享:

一类是针对高端复杂装备 ,即高技术装备的数据治理,比如风力发电机组、汽轮机、煤矿机械、大型鼓风机、空压机等,都是工业生产当中的核心装备。围绕着核心设备生产过程、运行环境、运行过程、后续优化运维开展大量的工作。

图片

这张图是风力发电过程当中产生的数据。会发现周围林林总总各种 Scada 数据、测风数据、环境数据、故障信息都会汇聚起来,数据量非常惊人。

图片

我们一个项目中每天光运行数据可能就有 2 亿多条,而且仅仅是结构化数据,还没有算非结构化数据的数据量。我们面临的生产环境过程数据治理是一个无边界的情况,有源源不断的数据进来,要求我们能够实时对这些多种多样数据去进行处理,而且数据类型、频次、价值密度都不一样,都为后续的数据治理、价值挖掘带来了挑战。之前我们也是花了大量的时间跟工业用户一起梳理他们的数据资产,才构建了能够与业务去结合的数据治理框架制度。

除了风电之外还有煤矿、机械等行业,不只是关注单台设备的数据治理,还需要关注设备间的联动,要形成协同,形成配合。数据频率不够高一些故障没法做到及时诊断和预警。

图片

还有很多动设备,比如说新能源车辆,工程机械像挖机、装载机等,全国到处跑,数据一方面是分布动态,数据是从全国各个地方收集回来的,对数据治理的实效性、数据质量评估、数据价值挖掘带来了非常大一些挑战。

图片

另外一块是产线相关,就是高端复杂的一些长流程生产线 。特别明显是在半导体生产过程中 ,一头是原材料,另一头是产品,在一批批的相应制造过程中会面临大量的工序环节,有大量不同类型机台数据,然后整个生产过程很长,有几个月。

图片

在生产制造过程中,生产效率、自动化程度主要围绕设备工艺、质量、环境的数据信息。如何进行有机的组织,形成比较好的数据关联和治理,为后续像波动性分析、根因分析、效率分析、优化分析去提供基础。比如说大家可以想象,高铁能那么平稳的运行也是因为它最后出来的钢轨设计精度非常高,我们要做的数据质量或者数据分析其实不仅仅是看它的某一个生产环节,某一个工艺段,而是需要把整个工艺段数据去进行相应分析、关联,然后就进行有机组织后为后面的分析去服务。

图片

图片

03 思考

下面谈我们在数据治理方面的一些思考。

首先,谈数据治理的时候我们的观点是什么呢?虽然我们往往最后是从数据平台上来看到数据的,但整个数据治理是一个端到端的过程。等我们看到数据,发现数据的时候,其实基本上都已经到了最后一个环节。一些基础的,很核心的根因性的问题修复是做不了的。所以数据治理我们第一个观点就是数据治理需要放大到整个链路来看。比如以新能源为例,从现场 PCL、新能源的中控,到监控软件,到区域公司,到集团公司,从数据的业务出发,数据的质量要求是不一样的,所以需要顺着链路进行整个的治理规划。但未来我们想象也不仅仅是企业内部的事情,还会涉及企业的内外协同。比如说运营企业,上游有装备制造企业,装备制造企业上面还有它的零部件,往下游走背后的像金融公司等一大堆产业链面上的公司。这个过程中我们需要放大到整个产业链的角度来进行数据治理。

图片

另外一个也是做了很多工作之后,比较触发我的一个思考图。

图片

这个图是我们一个工业企业的合作伙伴的团队负责人跟领导汇报时用的一张图。我们跟他们一起做了很长时间,为数据治理投入了非常多的人力和精力,也做了很多方式的工作在上面,所以具有同样的感触。但从企业发展角度,很多领导关注的还是能够呈现出可感知的,可量化的业务价值。这也是我们共同的希望。面对这样的问题,我们怎么样去平衡好数据治理的投入和产出?或者怎么衡量成熟度?怎么样让业务价值能够感觉更多?倒过来看看,围绕着数据业务的价值,在数据治理上面怎么去做,怎么去投入?

图片

这个是我们简化后的一个 简单数据治理概念模型 ,从生产系统到后面平台到上面价值应用。当然实际工业生产过程的数据链路和数据价值链路肯定比这个复杂的多。

套用一下电网分区,从一区拿到数据,汇总到在三区的平台上面,再去构建应用来为产业服务,基本上是这样的概念模型。

图片

那实际数据治理通常应该在哪个环节发生? 是进平台的时候入手去治理,还是把它转换成数据服务的时候去做数据治理,还是在用数据的时候再根据业务场景需要去做数据治理? 可能名称叫法会存在差异,也可以叫做数据预处理,或者数据的资源化服务,这些不重要,只是讲这样的一个概念。这是我们经常见到的数据的治理点。

从最开始接触到工业时,我们当时就一个理念。就特别希望的把事情就做到前面。然后我们必须一次性,全量、实时的去完成数据质量,或者数据资源化的工作。我们做了很多的尝试,数量不管多少都接进来,然后用了很多技术,去做了大量的实时数据治理,然后转换成相应的标准化数据服务,高质量的数据服务为后面的应用去服务,希望是一次治理出收益。其实从现在来看,这样的理念也仍然是我们一直在追求的目标。但从实际的角度来讲,过程当中会面临非常多的挑战。

图片

下面从当时我们做过的一些案例简单给大家看看。

我们出发点是希望从源头就避免数据垃圾进垃圾出,希望进来就清洗好,后面大家就能搞质量,去发现问题。所以我们有很多基础工作要做,数据质量核查、监控告警、异常数据处理修复等工作多了很多。

图片

但实际问题是,工业企业实际生产过程当中,它的标准和现场的生产运行中间还是有一些不匹配的地方。然后对于数据质量的要求,不同的口径,不同部门提的要求也是不一样的。特别是我们去做数据修复的过程当中,要求就更是千奇百怪了。比如很简单一个补数,数据缺失了要补数,有些按照平均数据补,有些要求固定值,有些按中位数、做插值去补,还有很多跟行业相关的,比如风力发电,我们碰到过中间有一台风机的数据缺失了一段,然后让你用周围的,跟他距离相近,空间相近的一些机组数据去补。数据治理手段和方式其实从我们角度看,很难一开始就形成一个统一的、一致的、而且未来很长段时间不会变的标准。

图片

第二点,就是我们治理过程中,其实也会屏蔽一些后续的有用信息 。比如说有些数据是零,可能意味着,比如对环保,他可能就意味要么是传感器坏掉了,还有也可能是瞒报、漏报的一些问题。它也有它的含义和业务价值。所以治理到什么程度,怎么和业务去结合其实也是一个蛮大的挑战。

图片

还有一个问题,数据治理,特别是去做全量实时的数据治理的时候,数据每天都在进,会占用大量的计算资源。但从数据价值的利用的率来看,不是所有的工业数据都会被后面反复的大量、高质量的去使用。这就会造成大量数据计算资源的浪费。

图片

还有些很实际的问题,比如说数据治理规则会变,肯定要允许规则改变。但一旦规则变了之后 ,过去的历史数据怎么处理?要不要重新算?重新算会重新占用资源,如果不算版本之间怎么去达成一致,达成协同?如果出现跨年度比如十年的一个报表,标准不一样结果肯定会出现偏差。这些都是我们在现实当中碰到的一些实际的问题。大家可以想象,如果今天你在这个位置上,或者类似的工作安排上,你都会去想这些事情。这不是个别现象,我们很多投入和成效不成正比。

还有种做法,我们也实践过,就是接入数据的时候就治理一批,然后说治理了。同时把原始数据也存了。然后会发现说其实他对资源的占用还是一样。而且比起原来这种做法,存了两份、更多份的数据,导致的开销更大。

所以我们现在在提的一个概念(仅代表我们个人的观点),我们把它叫做分阶段按区数据治理 。什么叫分阶段,其实我们认为,在不同的点,不同的环节去做数据治理。在每个阶段去做好每个阶段应该做的事就行了。

图片

第一个阶段,我们更多的是去做数据质量评估和识别,包括完整性评估、重复性、实效性、正确性的评估,而尽量不去改这个数据 。在这个过程当中需要有技术架构去做这件事。怎么去做这件事情,怎么把数据标准转换成企业的落地数据治理系统,或者数据管理系统的一部分。

图片

比如要解决工业领域的数据重复性问题。看起来发现数据重复是很简单的事,但想象一下,面对的工业数据是源源不断的接入情况下,数据重复性问题不是一天暴露的,经常发生历史数据重新发送的情况。

图片

除了重复性还有数据完整性的问题,从设备、机台、工艺对象进行完整性分析,从时间维度、批次维度等进行数据可视化呈现,后续相关分析时对数据质量、完整性进行相对直观的了解。

图片

数据存在缺失时需要补数,需要按设备正确的去分析然后依据人工规则、行业专家经验、机器学习来形成智能、自动化的分析手段,节省治理环节的人力和精力付出。工业领域的数据还需要正确性分析、实效性分析。

图片

图片

工业数据是很长的一个链路,数字化车间基本不会围绕着一个个单台设备去做,如果放大到大的生产系统、企业集团内部,数据的传输实效性是非常严重的一个问题。按天为颗粒度会产生滞后性,当应用出现问题后,怎么及时的锁定、发现问题,时效性不太容易暴露,但也是实际工业领域数据治理过程中需要去考虑的事情。

以上是第一步,也就是数据治理接入的环节。在这个环节需要更多的去发现问题,及时做出数据补录等异常数据处理。第二个环节是数据存下来了之后,当要到用的时候,我们提了一个概念叫“按需数据资源化”,也就数据需要依照业务场景和价值出发,在统一规划和架构的支撑下,按需的来做数据资源化工作,从而实现数据的一致性。

图片

这里的一致性我们把它放大了,不仅仅指的数据的名称的一致,也包括理解上的一致性。比如在不同环节、部门、公司去用数据时,大家对名称、含义、精度等各方面的理解是一致的。

这个过程当中有很多工作做。为什么传统工业企业去做数据分析、使用时,经常会做成竖井式的建设?从业务出发很容易干成竖井式的,各自封闭,生产监测系统、监控系统建了十几套,彼此不相通,结果没法做联合解读。

图片

另外一种常见做法是底下建个大平台把数据收了,但是数据价值无法去体现,数据价值释放缓慢或困难。所以我们的想法是中间缺了一层,业务和数据之间还需要加入一层领域模型层。领域模型层就是要把IT角度管理的数据,比如不同数据库、数据引擎、数据模型,能够和特定行业、生产、设备去关联,结合,将数据面向领域进行资源化,这个环节主要就是做面向业务领域的映射。

图片

然后上面的数字化应用,不管是良率分析,还是运行故障分析、能耗分析,都是围绕一个统一的数据资源层或者数据模型层来进行分析。这样做的目的是希望应用能够有效、可靠、敏捷的使用数据,或者换个角度说,能够让数据能够有效、可靠、敏捷的被加工,去释放价值。

图片

所以这个过程当中我们要引入一些面向产业、行业、设备的数据资产模型。让数据挂在生产系统的设备、资产数据数上,业务应用部分数据探索价值、挖掘、访问都不是直接去访问底层数据库的接口,而是从业务领域,用业务语言去访问数据进行分析。

图片

因为这个分析过程中我们对底层的数据、数据存储方式并不感兴趣,感兴趣的是发生故障后,要研究故障过去发生的时候运行数据怎么样的,振动数据是什么样子的,类似的故障以前有没有发生过,当时发生了谁来修的,更换的什么件,同样的故障在其他的类型的设备身上有没有发生过,又是怎么修的,用到哪家的件,被更换的用一批次的件都运行在哪?这些是我们在做相关分析时脑海当中构建的业务数据蓝图。我们要和底层的数据结合起来,将相关资产模型,映射到我们的平台上面去做数据资产模型的管理,然后把设备生产相关的数据组织起来。

图片

图片

图片

后面第三步是做了映射,但其实我们还是没法解决所有的问题。就是真正做场景分析时,我们对数据的质量要求,结合业务目标,包括数据分析结果的精度、误报率、漏报率的要求都不一样,对数据处理的手段和方式也不一样,所以我们还需要去考虑在分析环节去提供一套灵活的,可组装的,按需构建的数据治理或者数据预处理机制,来满足业务使用数据最后一公里的需要。

图片

我们也不是把它限制死,还是可以进一步结合业务场景去加工。通过可视化组装式数据处理这种方式,能够把数据处理、特征提取、数据治理相关能力,结合数据标准固化成一个个的算子。

图片

算子大家可以简单理解是一段数据处理逻辑。然后未来大家去做数据分析时只需要进行算子组合就可以完成相应数据处理,而且在这个过程当中我们还提供一定的开放性和灵活性。数据治理不是一蹴而就的,开放性支持大家去增加新算子,去扩展新的数据治理能力,并去把它固化、沉淀下来,变成未来系统可构建的一部分。

图片

经过调试等核心功能的处理完善,最后把数据变成按需治理后的数据资源。当然这样的迭代过程可以是反复被加工的,或者说能够一层层的去加工。比如原始数据第一次加工算出了设备的故障预警信息,然后基于预警信息就可以去做后面的备件预测,去做后面的运维排程,就进行第二次加工,根据备件预测可以去做财务预算、计划,就算第三次加工。

图片

我们在平台上从数据治理角度还有个理念,就是数据治理的过程也是一个阶段一个阶段不断迭代的,至于几个阶段可能需要结合不同行业进行探索。我们觉得分阶段有必要,但分几次阶段、几次资源化还是需要结合行业实际做好。当前我们认知是四次资源化来实现业务产品的支撑。当然后面我们也欢迎其他的行业大家一起来交流,共同来探讨。

图片

技术手段之外,还有一个话题就是体系的建设。体系的建设不仅仅是技术工作、技术选型、技术架构,也不仅仅是数据标准、相关规范的建设,还包含了跟大家的日常更结合的更紧密一些。组织能力建设、制度建设,特别是数据使用识别过程当中可能需要懂数据技术,懂计算机技术,了解业务领域这样一个“三T融合”的团队建设。团队需要各个小组紧密配合,然后结合业务发展、实时动态记录去进行数据价值落地支撑。我们把它叫“数字化办公室”。

图片

除此之外,当然还会有相应工作流程和方法。从场景驱动的方式,从数据的层层加工、分阶段加工的流程,去支撑整个事情去落地。背后当然也还有相应的数据底座、数据架构、加工工具之类的支撑。组织、工作方法流程、工具支撑这三大要素构建了我们认为工业领域数据 资源化资产化的核心要素。

04 总结

投身数据治理的团队都绕不开回答的开头的那个问题,就是怎么去衡量投入产出?怎么让从内部领导、相关业务部门,到外部的业务合作伙伴和团队能够感受到我们的工作的可感知的、可量化的业务价值?

图片

首先 从业务角度去审视我们做的所有的工作 ,这是我觉得非常重要的一件事情。以终为始的去看,以业务价值去看,看看这件事情在我们前期投入是否合理,因为不是所有需求都是要投入进去的。

第二个是分阶段地去做数据治理。把过去曾经尝试过的“毕其功于一役”的事情分阶段的去做。特别现在大家谈的数据湖数据仓“湖仓一体”也部分的有点这种感觉。

第三个是按需去做数据治理、数据资源化和资产化。结合业务的需要。在统一框架和统一支撑下,业务需要一批我先治理一批,慢慢丰富、完善、迭代。治理一批、产生一批价值,成熟一批。

最后一点是**体系化的建设。**工业数字化很多工作,不管是数据治理还是数据价值挖掘,或者是数据业务落地,都不仅仅是技术问题,在整个过程当中组织架构体系如何去建设也是一个重点需要去同步去考虑的事情。

昆仑数据/工业大数据创新中心介绍

图片

图片

图片

图片

图片

05 Q&A环节

Q:能给我们一个实际的怎么更好的通过数据治理体现价值的案例么?

A:简单讲一个国网我们原来做过一个新能源大数据创新平台的例子。风电有一个很重要的工作是做功率预测,因为风电本身是不稳定的,属于动态能源,有它的周期性和它的不稳定性。所以对电网而言,希望能对它的行为进行预测,比如发多少电?以保障电网可靠的运行。过去大家都各家自己做,水平也参差不齐,没有形成一个比较好的效果。后来我们在中心侧尝试把风电、光伏电站的各个数据汇集起来,然后开放出来在这个平台上统一的去提供基于数值的功率预测,达到较好的水平,为整个区域的新能源去服务。背后一个很重要的工作就是不同的厂商、 不同风场,不同机型的数据是不一样的,数据含义、数据名称、精度都是不一样的,每天都要实时算的,而且不太可能是定好了就不变了,时常动态的改变。因为不断的有新风场、新机型、新传感器加入,所以我们也是做了很多工作,把各个风电厂不同企业 不同设备类型的数据经过统一的汇总、标准化处理之后,能够提供全平台的统一的功率预测。

|分享嘉宾|

图片

钟虓

北京工业大数据创新中心 业务总经理

钟虓,北京工业大数据创新中心产品业务总经理,负责工业大数据平台产品研发及其在能源电力等行业的应用推广。拥有多年云计算,物联网和大数据平台等相关领域的技术研究和产品研发经验,主持过国内多个重量级工业大数据、工业互联网平台的建设实施。在中国、美国等地拥有20余项相关领域专利,并且在Middleware、IPDPS、ICDCS等国际顶级会议及《计算机学报》、《软件学报》等国内顶级期刊上发表过多篇论文。曾任职IBM中国研究院高级研究员。


本文地址:https://www.6aiq.com/article/1668693525736
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出