Fork me on GitHub

网易云音乐数据资产化建设的思考与实践

网易云音乐技术 稿

本文介绍是云音乐数据资产化建设相关的内容,介绍了近一年在具体实践过程中的一些阶段性的成果和思考;详细内容将从资产化建设的背景、近期的实践成果以及下一阶段的思考与规划共三个方面来展开。

1 从几个典型的问题出发

“我要取个数有没有现成的表?”,“按xx报表这个指标的口径,我想取清单明细怎么弄?”,“这么多表,很多指标存在多张表,哪个才是正确的?”……

“咱们的数仓建设得好不好?”,“数仓建设进度到哪儿了?模型公共性/拓展性如何?”,“数据质量怎么评估啊?”,“完整性、一致性、准确性、及时性 ?”,“如何量化?”……

“咱们建了几万张表了,到底有啥用呢?”,“谁在用我们的表?用得怎么样?”,“建了这么多表,有什么价值?”……

图片

归纳问题,形成三类痛点:数据消费、数据生产、数据价值

2 初期所面临的内外环境

2.1 外部环境

在整个行业降本增效的大环境下,公司在近段时间也需要做相关的努力。我们的数据资产化也是围绕降本增效的宗旨,指导全链路的数据建设工作。

图片

2.2 内部情况

加入云音乐初期,云音乐数仓已经具备了8年多的积累,表总量达到6w+,数据库70+,业务线10+,存储空间超过100P,数据生产和消费相关的人员几百人,线上线下的计算任务10w+,大数据年度成本超过1.5亿,在同等业务规模下的业务复杂度和计存成本已经达到了行业前列。

在过去几年,不论是业务环境还是团队人员都经历了好多轮的迭代,会面临很多现实的问题,诸如:持续不断的需求(来自业务、商分、技术、职能部门等)、永远短缺的人力资源,更不幸的是,基建能力的相对不足会使得前面两个问题陷入持续恶化的窘境。

这也应该我们大多数人可能面临的情况,很少有机遇能够碰到从0-1到数据仓库搭建机会,更多是在前人积累的现状下,一边继续支持业务,一边腾出手来做内部优化。

图片

3 我的思考和行动

3.1 找出线头:从数据消费端切入

边建设边治理,类似开着飞机换引擎,必须在支撑正常业务需求吞吐的前提下,选择ROI最高的方式来快速拿到结果,并且被感知到。消费侧是一个比较好的切入点。三个理由:

  • 消费侧对于数据资产变化的感知最直接;
  • 现有基础上从底层开始推翻改造代价过高,且风险和人力成本均不可接受;
  • 历史积累的很多“宝藏资产”有被发掘利用的价值。

这里有一个很现实的问题值得我们思考:为什么我们建设了这么多有价值的表,消费方还经常感觉到数据不够用?——是真的不够,还是说 找不到 ?有问题的地方就有我们努力提升的空间。

图片

建得多vs不够用 这样的体感错位的问题,本质上是 生产视角vs消费视角 的错位,导致用户消费决策链路上花费了太多的成本,从开始到放弃,陷入“不好找、不敢用、重新做、建更多、更难找”的恶性循环。

我们做了三件事情,来解决这个问题:

(1)精简数据模型:梳理现有数仓模型表,提炼每块业务的核心表清单,将长期不用的库存表、疑似废弃的垃圾表、过度设计的烟囱表等进行淘汰整合

(2)重塑信息结构:以消费视角,重新整理核心表清单的信息组织形式,编撰数据资产白皮书,并持续保鲜

(3)产品化运营:搭建连接数据生产和消费的门户,提供数据资产化运营的平台——数据资产门户

图片

起初我们用灵犀文档编撰了数据资产白皮书的第一版,搭建一个简单的门户portal导航,并配套埋点以便统计门户访问情况。

图片

随后在与网易数帆大数据产品团队的交流合作下,促成了数据地图-数据专辑的上线,方便集团内各BU更好地从消费场景来组织自己的数据资产信息结构。

图片

至此,数据仓库团队有了自己的产品阵地来承载核心数据资产,以便后续逐步在消费者心中树立权威核心资产的心智。

3.2 抽丝剥茧:数据生产端的治理

图片

不同于消费端的相对轻量化的方式,在数据生产端的治理则是切实从细节一点点地沉下去持续打磨。我们从立标准、搭工具两方面同时进行,来逐步拆解落实整个数据治理工作。

这里需要回答的是第二类问题:“如何量化数据仓库的建设?”

如下图所示,我们引入高质量、强规范、低成本三方面的指标来综合衡量之。

图片

具体的实施过程,由于很多历史原因,既定的数仓研发规范并没有得到很好的落实,很多环节需要需要人工介入梳理。因此整个治理工作也会在不同阶段重点关注不同的指标用来牵引团队的工作重心。

图片

经过近一年的实践落地,云音乐数仓内部已经对“三度”指标体系达成了共识,并作为日常工作中的北极星指标时刻关注。

图片

数据治理并非一锤子买卖,整个过程如果需要做到可持续,需要有配套的机制和工具来辅助。因此我们设立了一系列的原则,来确保整个治理体系有序进行:

  • 治理有依据
  • 权责有归属
  • 机制可持续
  • 效果可回收
  • 方法可沉淀

图片

通过跟网易数帆大数据团队合作,我们拿到了生产链路的元数据血缘,并以此建模,形成生产治理可行的基础;权责到人&机制保障 使得整个过程能够有序落地。在过程中,同时沉淀了一系列的可视化监控看板和治理跟进工具,确保过程量化可控。

图片

图片

4 取得的一些成果

一图胜千言。

图片

需要补充说明的一点是,不仅仅是绝对值相关的数字结果可观,从增速趋势、产出稳定性以及研发人员的日常意识方面,都是有明显的正向提升效果。

5 数据系统的全局长期目标思考

提到数据系统,不仅仅包含数据仓库本身,还涉及到上游生产系统、中游数据平台、下游消费圈人洞察、报表系统、智能服务等等,数据中台作为串联上下游的环节,是整个数据系统的核心。

图片

在第一阶段的资产化建设达成目标后,我们更需要重新来审视应用视角的效率问题。如何降低下游业务应用的复杂性,则成为一个新的目标和命题。如下图所示,有一些事情已经在进行中,更多能力建设还在路上。

图片

6 阶段性实践小结

用一张图来小结一下我们在过去一年的生产实践中,已经落地和正在落地的一些成果产出,在面向业务的全域数据建设的基础上,在数据的采、建、管、用环节沉淀一些列的方法论和工具集,不断夯实我们的基建,做到降本增效,同时探索数据结合业务的赋能方案和机会,更近一步探索数据商业化的路径。

图片

7 关于未来

一张图,一场仗,一颗心

数据资产化是这场仗的起点,但远未到达终点,起步于资产化建设,与兄弟团队们一起逐步丰满数据业务的大图。

使命和愿景

以数据资产思维和数据服务思维,不断推进数据中台化建设,打造云音乐数据统一,质量可靠,服务便捷,治理安全的数据资产建设、管理和服务平台,是我们这个团队的使命和愿景,愿与广大有志之士共同努力!

图片


本文地址:https://www.6aiq.com/article/1675875136321
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出