上周,我们推出了优维全面可观测能力介绍的系列性文章的第一篇:架构可观测。优维架构可观测是从系统架构的视角来呈现链路与服务的状态数据,点击可回看:架构可观测文章。本周,我们将推出本系列性文章的第二篇:变更可观测。



故障60%到80% 是由于变更引起的。


对于生产环境的稳定性,是各个行业相关公司都关注的。尤其是对于金融行业及大型互联网公司来说,稳定性就显得更为重要,另外,从诱发稳定性问题的原因分析来说,变更问题所占据的比例,常年超过一半以上,而故障60%到80% 是由于变更引起的。历史上因此产生的重大故障不胜枚举。


当公司业务规模扩大,系统采用分布式结构后,会增加系统的复杂性。同时,随着业务复杂性的提升,不同部门间的协作关系也变得更加错综复杂。这样一来,在大型企业中,进行任何改动或变更的挑战就更大了。


所以,对于稳定性来说,业界的一个共识是:预测及防控变更风险,稳定性问题就解决了一半以上。


1

变更遇到的问题


虽然说业界有了上述的一个共识,但诱发线上问题的根因是多种多样的。就如优维交付团队在辅助客户进行生产上变更时,就遇到以下问题:

 

  • 变更过程难以观测:生产环境中超过60%的故障来源于主动变更,业务运维难以从变更的角度观察是否给应用系统引入异常,变更活动只能“听天由命”。

  • 变更存在信息孤岛:支撑系统运行的应用程序、计算资源、存储、甚至网络等等环节由不同部门负责管理,各个环节的运维变更犹如信息孤岛,业务运维难以掌握和管理这些变更给应用系统带来的影响。

 

基于上述存在的问题,优维「变更可观测」旨在帮助用户观测生产环境的系统变更行为,让业务运维可以更加准确地评估系统健康状态,同时辅助其更高效地处理变更引起的故障,确保系统的稳定性与连续性。


2

优维变更可观测能力


优维「变更可观测」以变更事件为出发点,以应用系统为中心,帮助用户主动发现变更引入的异常,防止轻微异常扩大成故障。同时,消除信息孤岛,拉通东西向变更、南北向变更及变更时间流构成三维立体的变更观测视角,为运维提供全方位的变更洞察。


整体技术思路


基于用户痛点的洞察,优维变更可观测的思路是打通两个维度。


第一个维度要从东西向视角打通应用系统过往的变更历史,知道应用系统做过哪些变更;第二个维度是要从南北向视角打通支撑应用系统的各级资源,弄清楚分别有哪些资源,掌握资源的运行状况。



通过掌握以上两个维度的信息,横向上从系统变更工单的视角出发,通过变更工单可查看系统本身服务是否有告警,服务当前的健康指标状况,以及之前是否有故障工单的存在。同时,纵向上可查看系统各级资源,如各种中间件、数据库、存储等资源是否有告警,是否有做过变更,及资源当前是否存在故障。

 

核心功能


基于全面技术框架的双重视角,变更可观测性引入了一个横向的时间轴维度,使用户能够追溯过去72小时内的系统变更全景。用户通过这一时间序列分析功能,可深度洞察近三日内系统所实施的所有变更活动及其具体事件详情,并在变更执行后,能够精准关联并揭示由此触发的各类告警与故障现象,从而实现对系统健康状态的持续监控与有效管理。



在纵向维度上,用户能够对比查看服务变更前后的告警状态演变。同时,通过引入系统资源图谱,使用户能够宏观把握各类资源的告警态势,并能进一步详细了解特定资源类型的实例分布及其性能指标情况。


当某类资源出现异常告警时,用户可以沿此路径进行递进式下探分析,精确获取关联资源的详细告警记录、变更历史及故障详情信息,以实现全方位、多层次的运维洞察与问题定位。


3

变更可观测的应用场景


变更可观测主要覆盖以下应用场景:


  1. 追踪变更历史:要掌握生产环境一切变更计划和行动,回溯多渠道、全类型的变更,包括不限于应用变更、配置变更、数据库变更等。

  2. 健康态势评估:帮助业务运维/系统运维了解变更后系统是否存在异常,多次变更之间是否存在相互影响,融合系统资源图谱、资源告警及其他事件来得到一个关于变更后系统健康态势的准确评估。

  3. 辅助故障诊断:基于系统访问架构,融合指标监控、告警和事件信息,辅助业务运维进行故障诊断。


4

变更可观测的四大场景价值


  1. 观测变更的服务是否存在异常:变更完成后通过应用系统的角度查看变更的服务时存在的异常情况,主动观测、主动解决变更后服务可能存在的健康问题,防止问题恶化演变成为故障。


  2. 订阅变更报告:当运维成熟度足够高以后,业务运维可以订阅指定系统的变更报告,以定时推送或故障推送的方式在远端获取变更详情。提高运维灵活性,提高运维成熟度。


  3. 观测应用系统依赖的资源是否存在异常:将观测视角沿南北向下钻到基础设施资源层面,防止资源异常影响上层应用程序,甚至业务的故障。


  4. 查看应用系统依赖的变更记录:消除部门间信息孤岛,为业务运维带来更加丰富、全面的系统变更信息。


变更可观测是提升生产环境稳定性的一个重要洞察能力,相关应用场景的功能实力也在逐步完善建设起来,我们希望能给用户带来更精益、更可靠的可观测能力。