企业如何构建指标平台并实现智能分析?
导读 指标体系已成为现代企业管理的普遍实践,并成为企业践行数字化经营的利器。指标平台可以帮助企业提高指标管理、加工和应用的效率,提供更智能、高效的分析决策支持。
为了帮助企业更好地开展指标平台实践,实现业务价值,Datafun 邀请到指标平台代表厂商数势科技大数据产品负责人杜永青带来分享。
本文将介绍数势指标平台的产品建设方案以及企业落地实践案例。
主要包含以下三块内容:
-
数据民主化&价值化的趋势与挑战
-
指标平台产品和技术方案介绍
-
指标平台在企业的落地实践案例
分享嘉宾|杜永青 数势科技 大数据产品负责人
编辑整理|张翎
内容校对|李瑶
出品社区|DataFun
01数据民主化&价值化的趋势与挑战
当前,流量红利已经达到顶峰,但数据红利才刚刚开始,尤其是今年,随着大模型的推出,许多原本没有生产或掌握大数据的公司,也能利用大模型进行 AI 应用开发。比如在 CEM 领域中,一个重要应用场景是通过挖掘消费者评论、咨询记录等数据并结合 NLP 算法去发现和改善客户体验问题,原本只有互联网平台公司才能做,因为只有大平台才能掌握大量消费者数据且有能力去训练相关 NLP 模型,但大模型的出现,让普通的品牌商在没有大量数据的情况下,也可以挖掘出消费者对于商品质量、服务等方面的反馈。
在数据红利时代,数据民主化和追求业务价值是必然趋势。当前阶段,数据分析基本都是由中心化的数据团队开发报表看板服务全公司,真正有能力自己用BI工具开发报表的只有少数公司的少数业务分析师。但数据分析是数据发挥价值的最后一公里,应该交给离业务近、离管理决策近的人去做,未来的分析必须是业务人员自主完成的,分析工具也应该面向业务人员去设计,要求门槛更低,更易用,更智能。
指标是业务分析决策的基础,主要体现在以下几点:
首先,它可以完整地映射一个企业的业务经营逻辑,例如在上述示意图中展示的一套完整的体系,可以将公司的整体经营活动映射成一套完整的指标体系,从最高层面的利润开始,层层向下拆解指标,直至具体落地到可执行的业务策略中,形成从战略目标到执行策略的完整闭环。
其次,基于这套指标体系和数据,管理层和业务部门可以对业务经营情况进行量化的监控、诊断甚至预测,清楚业务"怎么样"和"为什么"。
最后,基于规范化指标口径的指标体系,可以为公司业务提供一致可信的衡量标准和准确的数据基础,从而提高经营决策效率。
指标管理和应用方面主要面临以下挑战:
从业务视角来看,一是缺少好用的指标体系,不知道如何设计一个合适的指标体系来满足业务需求;二是指标口径管理困难,难以统一不同指标口径;三是异常问题定位与归因,当指标出现异常时,难以准确定位问题原因,无法及时处理。
从数据角度来看,首先,业务需求数量增加,但数据团队的人力资源并未相应增加,导致数据需求交付的时间逐渐延长;其次,随着业务需求变得更为紧急且灵活性更高,对底层产品的性能要求也相应提高。因此,如何兼顾查询性能和分析灵活性,是数据领域经常面临的问题。
02指标平台产品和技术方案介绍
1. 数势指标平台产品定位及应用场景
为了解决上述一系列指标管理与应用问题,指标平台应运而生。数势指标平台是对企业的指标数据资产进行全生命周期统一管理的一体化工具,帮助企业实现指标口径对齐,并通过一系列技术和工具优化,实现指标的高效开发,面向业务提供更智能、高效、灵活的分析决策支持。
数势指标平台产品的主要应用场景如下:
(1)目标管理:业务目标设置与共识,战略指标层层拆解到运营过程指标,实现战略目标到业务执行的闭环
将公司战略北极星指标拆解的本质是对目标的拆解,即把战略目标按照一定业务逻辑拆解到更小的、更容易落地的业务目标,其过程就是将北极星指标层层拆解到更底层指标,最终形成纵向有支撑、横向有业务联系的指标体系。
支撑目标管理的核心产品能力包括:
- 目标的设置,支持手动 & 批量上传的方式,设置全局目标和按月季年时间粒度、业务部门等维度拆解目标。
- 指标口径的共识和追踪,支持目标绑定具体的指标,在指标平台上进行指标口径的标准化管理、发布以及数据的监控追踪。
- 任务设置和下发,支持管理人员为改善过程指标,直接派发相关的工作任务给具体的执行人员。每个过程指标改善相关的工作任务可以由业务专家提前设置,同时在业务日常运营中不断积累沉淀。
(2)智能预警归因:帮助业务自动预警和定位业务数据异常问题
指标预警归因,能够在数据中自动识别异常情况、定位原因,并结合人工经验生成诊断报告,实现智能化的指标诊断和问题定位,从而为企业提供更高效、更精确的数据分析能力。
(3)业务自助分析:让不懂技术的业务人员用可信、好理解的指标直接取数、做报表
传统的数据分析以数据集为基础,每新增一个报表需求,就要增加一个数据集,这意味着不懂技术开发的业务人员只能向数据开发团队提需排队,很多即时数据分析需求得不到满足。而基于指标的数据分析,最大的特点就是**"干掉数据集"**,业务人员直接用自己需要的、能理解的、可信的指标配报表,即使遇到现有的指标库没有的指标,自己也可以去指标平台基于原子指标"拖拉拽"组装指标,全程不需要技术人员,大幅提升数据分析效率。
(4)融合大模型能力的指标分析:结合大模型能力,支持业务人员对话式进行数据分析,提供更好的智能化交互体验
以 GPT4.0 为代表的大语言模型具备强大的理解、生成和推理能力,代表了未来数据分析智能化的发展方向。数势指标分析助手底层以大模型为基座,引入指标平台相关能力,微调训练大模型,应用 RAG 和 AI Agent 能力,让用户能够以自然语言与数据对话,而无需掌握查询语言或编程技能。
(数势融合大模型能力的指标分析产品架构)
将指标平台融合大模型能力做智能分析的好处:
- 支持更灵活、更精准的意图识别以及后续指标取数、分析等应用。大模型本身的一个"缺陷"就是不够精准,要精准就得付出更多基础的、标准化数据的建设,基于指标管理方法产出的指标相关知识很好得解决了这个问题,主要包括由原子粒度信息(原子指标、维度、统计周期)构成的指标语义层、指标树关系、指标元数据信息、血缘关系等。
- 指标是结构化的业务知识,更利于做面向业务人员的应用,业务也能参与进来丰富和迭代知识模型。
- 指标平台自带的指标计算引擎解决了查询性能问题,可以支持跟用户的即时交互。大模型赋能的智能分析落地在技术上分两步,第一步识别用户意图并分解为任务,这里很大一部分任务是去从指标平台取数据;第二步是基于取出来的数据做可视化分析、归因分析等。其中第一步指标取数依赖指标计算引擎的查询性能,基于大数据的查询、复杂计算都在这一步完成,比如从大数据量的明细表里取数、算同环比等,第二步的数据量一般是汇总级的少量数据,在指标 Copilot 的计算能力范围内。
(5)指标管理和开发:指标全生命周期在线管理,覆盖指标统一定义、加工和服务,通过零代码积木式组装指标和 API 消费指标,缩短数据管道,提高指标管理和加工效率。
上图是很多公司采用的数据架构,主要有两个问题:第一个就是数据管道很长,数据仓库至少四层,BI 报表还有一层存储,导致数据表很多,数据开发运维效率很低;第二个就是数据管理和应用是分开的,数据应用端很多,而且每个应用端都有自己的存储和加工,导致指标口径不统一的问题很难解决,因为数据团队管不到数据应用端,数据仓库建得再规范,应用端都可以随意破坏。
引入数势研发指标平台产品之后,现有数据架构的问题可以得到很好解决,具体表现为两个方面:
- 数据复用粒度从对数据表的复用升级为对指标的复用,且业务要用到的派生指标、衍生指标都可以通过原子指标积木式组装出来,这样可以极大减少数据表,降低开发运维成本。
- 后续应用端只需要做指标展示,数据存储、计算、权限管控都集中在指标平台,让专业的大数据团队和工具做这些事情,指标口径更容易管理,应用端的权限一致性、查询性能等都能得到更好的支持。
2. 数势指标平台核心技术
无论是针对技术的指标组装加工,还是面向业务的分析,指标平台都展现出了高度的灵活性。为了确保这种灵活性,同时保证性能,企业需要构建一个强大的指标计算引擎。在此背景下,数势打造了指标计算引擎 HME,其特点包括:
- 首先,底层选用 Doris 作为执行引擎,因为 Doris 无论在大数据量查询方面,还是跨模型、跨表的关联查询以及物化视图等方面,都具备强大的能力。
- 其次,数势计算引擎 HME 结合了众多大数据分析专家的经验,可实现指标的精确计算。该引擎主要具备两大核心能力:一是基于视图的预计算能力,计算引擎会收集到所有的指标定义信息和所有的数据模型信息,然后根据预置的多种计算优化策略以及参数设定来做预计算;二是基于预计算结果的查询优化,引擎会根据要查询的指标,以及当前可用的物化表,来做查询 Query 的改写优化,从而提升指标查询的时效性。
- 此外,平台提供了非常多样化的集成方式,与下游各种数据应用包括BI工具去对接集成。
- 最后,指标计算引擎整体是基于数据虚拟化理念设计的,可实现指标定义与物理数据(业务)的解耦,从而实现更加灵活的指标加工使用。
数据虚拟化是指标计算引擎的指导理念。当前数据服务模式下,一般都是以开发物理表的形式来交付数据需求,但数据表和物化是导致数据无序增长的主要原因,而且这种方式已经很难满足业务的快速灵活需求。因此数势采用数据虚拟化技术,将指标定义与数据解耦,可一方面将数据表变为指标,提高复用性;另一方面,将物理表变为虚拟语义层,增加灵活性。
指标计算引擎优化链路和相应的主要物化策略如下:
- 第一步是做预打宽。当最底层物理表导入并注册到指标平台的时候,会以数据模型的形式存在,为减少后面现计算的 Join 数量,这里会先把相关表做好关联,比如把事实表跟维表关联好;此外在这个环节,还会做一些其他优化,比如重分区等。
- 第二步是做预聚合。针对一些特殊的指标,也会提前计算好,比如常用的原子指标,再比如很多计算复杂度比较高的指标,如同环比,年至今累计等等。
- 第三步是聚合上卷。识别指标一些常用的维度提前做好更粗粒度的聚合,比如把指标相关的十几个维度聚合到三四个常用维度,减少表数据量。
- 最后是指标联合。针对跨多个模型查询多个指标的场景,会做专门的优化策略,比如最简单的一种优化策略就是把所跨的多个模型提前关联在一起。
数据虚拟化解决的是灵活查询和指标复用的问题,物化策略解决的是核心应用查询性能的问题,计算引擎后台会结合硬件资源、性能要求等参数进行物化 ROI 测算,实现基于 ROI 的"自动数仓"。
随着支持指标计算与查询场景的增多,可以将场景抽象细分为几个通用场景,然后针对每个通用场景固化成一个个优化策略。前端过来的查询会自动路由到相应场景优化策略,比如大数据量的指标计算、复杂指标同环比、CountDistinct 等。在一些对性能极度敏感的场景,如移动端报表通过 API 接入指标取数,计算引擎也会专门做一些优化策略。
最后,对以全链路指标化理念设计的指标平台的核心优势总结如下:
- 降低业务用数门槛,业务可以用统一可信的指标直接取数做报表,不用技术排期等待;
- 提升业务智能分析能力,通过对话式交互即可完成业务指标拆解、数据异常预警和快速定位原因;
- 提高开发运维效率,数据复用粒度从数据表升级为指标,极大减少了数据集市表数量,提高了数据复用性;
- 实时指标查询分析,根据指标加工和应用场景打造的指标智能计算引擎,保证指标查询性能。
03指标平台在企业的落地实践案例
接下来通过案例来深入探讨数势指标平台在企业中的落地路径。
合作的证券公司在数据方面主要有两个痛点:第一是数据需求无限,开发资源有限,需求排队严重;第二是指标口径不一致,且无法高效复用。
整体链路从咨询诊断开始,然后数势基于企业数据应用目标和现状,梳理设计指标体系和开发上线指标平台,然后再对指标进行拆解开发并建立指标运营管理流程,最后进行决策分析应用。
对指标相关的六个方面的现状,进行调研诊断,然后对比行业标准进行差距分析,最后给出改善措施及计划。
建立指标体系,整体设计思路是围绕该券商的最终目标------AUM 最大化。首先数势帮助该券商拆解影响 AUM 的四个关键因素,设计了顶层框架"KY+模型":Know Your Customer(客户)、Know Your Product(产品)、Know Your Employee(团队)、Know Your Branch(渠道)。其次,对每个关键因素,数势结合其业务场景、流程、策略等模型向下拆解,形成指标框架。最后,结合自下而上的指标体系梳理方式,向各个业务部门收集核心指标,并对相关系统(如 CRM 系统、智慧经分系统)的指标进行筛选、合并、整合、抽象,归类映射到上层指标框架中。
在方法论层面,以 KYC 为例,该证券公司参考了互联网行业相对成熟的海盗模型(2A3R),又融入券商特色,加入 Awareness(感知),设计形成了 3A3R 客户旅程模型:Awareness(感知)、Acquisition(获客)、Activation(活跃)、Retain(留存)、Revenue(收入)、Refer(传播)。该模型保证了客户旅程完整覆盖,核心指标不重不漏。最后,在执行层面,通过 OSM 模型拆解每个关键动作的核心衡量指标,形成完整的指标体系。
在整个数据架构上,数势指标平台定位为一个中台工具,向上灵活支撑各种业务需求,向下牵引数据仓库的建设,核心功能包括指标管理相关的指标定义、指标配置化加工的功能、指标应用相关的指标市场、指标取数和 API 服务相关的功能。
以员工绩效分析类指标为例,券商在指标平台内通过指标组合配置,可以快速进行指标派生与衍生,大幅提高整体指标层开发效率。
该券商完善了原有的经营分析体系,建立了月度经营分析会制度,并成立了一个跨职能的横向组织------指标委员会,该委员会将不同职能的业务部门拉齐到同一指标标准之下,评审并发布统一的指标口径,再通过月度经营分析会,反映公司真实的经营情况,从公司整体视角出发共同分析和解决问题。
数势指标平台的指标取数和自助看板功能,支持业务团队以"拖拉点选"方式完成指标及指标下钻明细数据的即时查询和可视化分析,提升自助分析效率,数据需求平均交付时间从 1 周缩短到 30 分钟。
除了基础的自助分析,数势指标平台还提供了指标预警和归因分析功能,帮助业务团队提高归因分析效率,快速定位问题。
以上就是本次分享的内容,谢谢大家。