Fork me on GitHub

可观测系统中的告警管理实践

以下文章来源于 https://zhuanlan.zhihu.com/p/622133541

导读: 本次分享主要介绍睿象云可观测系统中的告警管理实践,主要围绕以下内容展开:

  1. 可观测性的整体生态

  2. 告警在可观测系统中的价值

  3. 可观测系统中告警管理的核心功能

  4. 智能告警管理最佳实践

  5. 问答环节


分享嘉宾|王金良 (前)睿象云 技术总监

编辑整理|王鹏 滴滴出行

出品社区|DataFun


​01/可观测性的整体生态



近两年,可观测性概念和工作红遍 IT 运维领域,导火索是 CNCF(云原生计算基金会)在云原生定义中提到 Observerbility,并声称这是云原生时代的必备能力。加之包括谷歌在内的众多大厂一拥而上,"可观测性"正式出道。谷歌给出可观测性的核心价值很简单:快速排障(troubleshooting)。

对于业务系统,尤其是云原生时代的分布式、微服务化、容器化的复杂应用,随着系统业务量日益庞大、内部结构日益复杂、组件间交互日益频繁,传统的监控管理手段已经不足以满足新时代的需求,可观察性就自然而然地被引入 IT 领域,变成与性能、可用性、可靠性、可扩展性一样的关键维度。

有业界专家一句话总结传统监控与可观测性的区别:"监控告诉我们系统的哪些部分是工作的;可观测性告诉我们那里为什么不工作了。"

业务可观测性其实就是对一个系统内部状态的测量、观察的能力;在有 一些领域也叫可维、可测、可控能力。谈起可观测性的概念,必须要从 "三大支柱"这个名词讲起。

2017 年,一篇博文总结了可观测性的三大支柱:指标(Metrics)、追踪(Tracing)、日志(Logging),文中将可观测性问题映射到了如何处理指标(metrics)、追踪(tracing)、日志(logging)三类数据上,由此形成了流传很广的业务可观测性三大支柱理论。那么业务可观测性就可以具体化为:如何定义、获取、分析这三个层面的数据。实现对业务系统的运行状态、异常状况、服务质量的可观测、可发现、可管理的能力。三大支柱理论出现后的几年间里,这个观点受到了业内的广泛认可,发展为对可观测性能力的基本要求,并且每一个方面都有了众多成熟的解决方案。例如各类开源工具:

  • 聚焦于 Metrics 的:Prometheus、zabbix、Grafana 等
  • 聚焦于 Tracing 的: Skywalking、OpenTracing 等
  • 聚焦于 Logging 的: ELK、Graylog 等

从 1980 年至今,全球IT 运维领域诞生了数十个百亿美金公司,从这些公司的发展趋势可以看出,越来越多的公司往运维管理方向发展。

再回到国内市场,国内 IT 运维的潜在发展空间超过千亿元,其中,金融、制造、能源等领域的大中型客户的年客单价达到几百万元。例如前瞻产业研究院数据显示,2012-2019 年,中国 IT 运维市场规模呈现波动趋势。从增速来看,2014 年达到近年来最高增速 17.34%,达到了 1121.2 亿元的市场规模。2019 年,中国 IT 运维市场规模达到 2324.3 亿元,同比增长 15.73%,2020 年我国中国 IT 运维市场规模达到 2690 亿元左右。

艾瑞咨询数据显示,2021 年中国 IT 服务将突破万亿大关,其中,IT运维市场规模在 2021 年达到 2941.2 亿元, 预计 2023 年达到 3236.4 亿元,2020-2023 年的年复合增长率为 11.7%。

引入业内大佬的一句表述:到目前为止,IT 运维赛道已经逐渐的层级化,强者逾强,因为软件领域一旦产品化程度高了,技术壁垒随之建立起来,逐渐的收敛市场。在这样的形势之下,完全初创没有积累的企业再进入,发展难度会越来越大。

--

02/告警在可观测系统中的价值



**可观测性并不是在取代监控,它也不是一种我们通常理解的某一个监控或运维工具的形态。**相比较而言,可观测性更像是描述一种属性的范畴,很多时候是种能力的体现形式,越复杂的系统越需要这种属性或能力。可观测性也并非万能的,它可以引导开发人员找到准确的答案,但也只是停留在引导层面,不能不能保证让他们 100% 找到答案。这个过程当中依旧需要当事人对系统、网络等有着良好的理解甚至直觉,才能让定位问题变得轻松并高效。

告警作为 IT 运维信号总量的金字塔尖,对于可观测性接下来的流转及判断起着至关重要作用。而统一的、准确的、智能化的告警平台的诞生,为可观测性平台的分析,提供了更为可靠的"现象",可帮助运维人员接下来分析原因引导方向。

智能告警管理平台可以作为企业数字化运营的中枢神经:



睿象云将不同监控工具或系统产生的告警接入统一的管理平台,实现告警的统一分派和通知,并能基于规则对告警进行去重和压缩。通过运用人工智能算法,无需人工参与的情况下,自动识别告警类别和新增类型,对复杂场景下的相似告警进行更高比例的压缩降噪。通过运用知识图谱技术和告警专业领域知识,能够自动推荐各个业务场景下海量告警信息中的根因告警。针对根因告警,通过结合告警故障知识库和运维自动化工具,对系统故障进行自动恢复。并通过不断地知识沉淀,提升自愈能力。沉淀运维知识,实现真正的无人值守。

睿象云也在运维管理大会上提出了告警成熟度模型,将告警成熟度模型分为从 L0 到 L5 五个层级,睿象云在 L2 的基础之上,将 L1 和 L2 层级的用户拉到 L3 级别,使他们达成告警的集中化,智能化、可观测的能力,通过人工智能算法及知识图谱使现有 L3 层级的客户逐步探索 L4 层级的根因定位,经过不断的算法训练和知识图谱的丰富,使得根因定位场景越来越准确,在未来通过自动化运维工具,将准确的故障根因进行自动恢复。



--

03/可观测系统中告警管理的核心功能



睿象云智能告警平台是一套支持 SaaS 和本地化部署的告警管理工具类产品,能够收集企业内部的事件类数据(机器日志、告警等),IT 配置 信息(业务调用关系、CMDB 等),和知识数据(故障手册、厂家文档、告警处理意见等)等三种 IT 运维数据。通过事件驱动发现异常事件,自动分析事件根因,对未来可能发生的威胁及时预警,并结合解决方案智能推荐形成企业内部智能运维体系闭环。

核心能力一------告警整合管理:睿象云可以连接 10 大类近 100 种 DevOps 主流工具和平台,覆盖开发和运维人员日常工作环境,分钟级完成系统和人员的连接。



核心能力二------告警智能化处理:告警智能化处理主要包括告警处理和模式发现。告警处理通过数据格式化,自定义字段提取和内容丰富,为基于算法的模式发现提供数据准备。模式发现基于规则和人工智能算法,对符合特征的告警进行分类、 聚合、降噪,自动监测和发现异常情况,降低超过 95% 的 IT 噪音。



核心能力三------分派和协作

On-Call Management 是智能告警平台的管理控制模块,帮助企业将事件处理流程固化下来,通过分派、升级、 转发、协作、排班等操作,确保信息在个人、组、团队间高效的协同。

  • 分派:以任务为对象,根据一定的限制条件将事件指定给某个具体人员。
  • 升级:当前任务在约定时间内未被分派人员认领,该任务将自动升级到上一级事件处理人员。
  • 转发:当前任务处理人员无法解决该问题时,可以手动的将该任务转发给其他人员或组。
  • 协作:对于需要多人共同处理的任务,可以交由多个个人或组来协作进行处理,也可发起面向第三方协作办公工具的协作。
  • 排班:按小时、日、周、或自定义周期制定周期性的多人工作安排计划。

On-Call Management 通过落地企业事件管理最佳实践,将任务分配工作变得更加简单,加强了团队内的责任和质量管理。通过直观、灵活的调度和升级,可以确保重要信息每次都通知到正确的人员。



核心能力四------知识库和知识图谱:这块的能力我们还在探索之中,也落地了一些项目。



核心能力五------分析及可观测:



事件分析以服务为对象对事件进行多维度实时分析,通过对事件、告警、事件集、服务、团队、相应操作和业务影响的整体视图,达成对告警态势的可观测性,最终实现更智能的实时决策:

  • 多维度仪表盘及 APP 以可视化方式展现运营指标和 KPI。
  • 事件智能降噪分析。
  • 智能事件异常分析。
  • 团队成员绩效分析。
  • 事件详情分析。
  • 日、周、月报表查询和导出。

事件的归档和分析是形成事件管理闭环的重要组成,帮助团队从海量的信息中实时洞察业务状态,归纳事件特征,沉淀处理经验。

--

04/智能告警管理最佳实践


1. 为某国有综合性投资集团成功搭建 IT 可观测性平台

某国有综合性投资集团(以下简称"该集团")是一家以金融为主体、 涵盖投资与资产经营的国有综合性控股集团,成立于 2004 年。截止 2019 年末,该集团合井资产总额达 1722.56 亿元。随着信息化的不断 深入,该集团的 T 环境日趋复杂,传统的监控手段已经无法满足日常运维的要求。睿象云分两期为该集团成功搭建了 IT 可观测性平台。该集团主要面临以下管理挑战:

  • 多种监控工具告警分散:存在多种告警监控工具,包括基础资源监控、应用性能监控工具、模拟拨测系统等,告警策略过于分散,管理较为不便。
  • 互联网区的核心业务系统缺乏监控手段:互联网区的核心业务系统缺乏有限监控和观测手段监控实时其相关性能情况。
  • 缺乏可视化大屏展示:缺乏可视化大屏视图将一期的IT运行监控系统的数据通过直观的、图形化的方式呈现出来。

基于以上背景,睿象云为该集团制定出以下应对方案:

项目引入集中化告警及可视化运维理念,整合已建成的基础监控、应用监控、模拟拨测、配置管理等多种运维工具所产生的告警信息,使其可集中通过内部 APP 平台来进行告警统一发送;抽取现有基础监控、应用监控、模拟拨测、配置管理等多种运维工具所产生的数据指标信息,通过监控数据多维度大屏展示等方式,实现运维数据高度可视化,同时针对互联网区的业务系统,通过主动拨测方式实时监控其可用状态。



取得的可观测成果如下:



睿象云服务的客户包括科技互联网、IT 服务、游戏传媒、保险金融以及制造零售等,这里主要列举的是用到智能化告警平台的一些客户,也会有一些 APM 的客户。



今天的分享就到这里,谢谢大家。



▌2023数据智能创新与实践大会


  • 4大体系,专业解构数据智能
  • 16个主题论坛,覆盖当下热点与趋势
  • 40+演讲,兼具创新与最佳实践
  • 1000+专业观众,内行人的技术盛会

第四届DataFunCon数据智能创新与实践大会将于⏰ 7月21-22日在北京召开,会议主题为新基建·新征程,聚焦数据智能四大体系:数据架构数据效能算法创新智能应用 。在这里,你将领略到数据智能技术实践最前沿的景观

欢迎大家点击下方链接获取大会门票~
DataFunCon2023(北京站):数据智能创新与实践大会



本文地址:https://www.6aiq.com/article/1681542296839
本文版权归作者和AIQ共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出