《优维全面可观测产品能力分解》系列文章的第一篇,介绍了「架构可观测」是从系统架构的视角来呈现链路与服务的状态数据;第二篇介绍了「变更可观测」是从变更的角度看系统状态的变化,及与事件的关联关系;第三篇介绍了「应用服务可观测」是深入服务链路的调用情况,基于Trace来做请求级链路追踪,实现服务的横向可观测。下面内容为该系列文章的第四篇,主要分享「故障可观测」的能力。


2023年过去了,但是相信没多少技术人会特别怀念它。对于技术人来说,这是不平静的一年,尤其是各大公司萝卜蹲式的各种P0/P1故障,频繁占据了热搜榜单。例如:滴滴崩了、阿里云一个月两次服务中断、语雀服务器崩了、微信&QQ先后故障、唯品会故障超12小时......


互联网大厂“组团”故障,说明在如今这个充满不确定性和复杂性的数字化时代,哪怕是互联网大厂亦不能避免各种故障的发生。这无疑再次为广大企业与组织敲响警钟,即当数字化转型步入深水区,业务应用全面走向线上化和智能化之际,我们的业务系统连续性到底应该如何保障?


正如AWS CTO Wanner所言:“Everything fails, all the time。”我们需要接受任何时候故障都可能会发生,既然故障无法避免,那么需要做的就是预测什么时候出现故障、如何快速定位故障、发现故障原因,并确保业务连续性受到最小影响,将损失降到最低。


因此,企业数字化转型中缺少不了业务系统保障的“连续键”,实现故障可观测性的建设已成为企业数字化转型中的一道必答题。


1

系统保障不能没有“连续键”


业务连续性的保障是重中之重,企业与组织数字化转型的不断深入,业务全面走向数据驱动和智能化的同时,外部攻击、人为错误、运行故障、自然灾害等对业务连续性的影响日渐突出。业务一旦中断,损失往往是企业不能承受之重,业务系统保障已不能没有“连续键”。


不过,传统故障排查和处理过程正成为业务系统连续性的“拦路虎”。在多云架构、复杂业务和海量数据的趋势下,企业自身IT环境走向复杂化,传统故障排查和处理的过程普遍存在一些通病:


  • 经验主义缺陷:故障排查定位时,依赖运维经验,无法形成标准高效的故障定位方法;

  • 野路子方法论:故障处理过程没有标准化的处理方案,故障应急处理效率和质量不可控;

  • 故障跟进割裂:缺乏有效的故障跟进处理机制,无责任人,导致故障往往是临时解决,且没有得到最终解决;

  • 信息各自为政:缺乏统一的故障分析沟通的地方,沟通和分析的过程信息均散落各地,导致无法有效的分析统计,进而无法有效的治理。


基于对以上痛点的洞察,企业与组织需要升级全新的故障排查与处理的能力,实现业务系统的连续性管理。


2

优维「故障可观测」

为业务系统按下“连续键”


作为新一代运维核心系统提供商,得益于在可观测领域多年的实践,优维技术团队构建了更加精细与完善的可观测能力,尤其是在故障可观测能力的建设上全新升级,能第一时间呈现故障的根因,并能联动应急处置快速恢复。


优维「故障可观测」产品能力可做到故障的有效识别、跟进、快速定位、应急处理与分析总结,帮助企业减少故障带来的损失。



基于常见的故障场景提供智能分析,「故障可观测」帮助企业快速完成故障定位,减少服务故障带来的企业损失。基于特定的故障场景提供常见的故障处理预案,确保服务快速恢复。还提供标准化故障处理流程和统一的故障处理作战室,确保责任到位,提高沟通效率,最终形成故障处理规范。


产品功能


就观测能力而言,优维「故障可观测」具体表现在“故障工单”和“故障根因分析”两大功能层面,助力企业高效进行故障排查与处理,确保系统稳定性与连续性。


故障工单的能力特色在于:其一是与优维ITSM的工单处理进行联动,支持团队更好管理故障,提高故障响应速度;其二是关联告警轨迹追踪,即故障发生后,通过告警轨迹追踪,及时了解告警的变化,且可按阶段查看告警的状态;其三是同源故障关联,即已知故障解决后,会自动关掉相关的故障单,避免不同的运维小组重复报障,减少沟通成本,提高故障处理效率。其四是对接应急预案,在故障发生后,可快速响应,进行应急决策,根据应急预案进行故障的处置与恢复。



另外,我们知道,故障的症状是最先发现的,而导致故障的原因才是最终排除故障的关键。因此,「故障可观测」的另外一大功能-故障根因分析,首先让用户及时了解服务的传播轨迹,再通过横纵向综合分析,将服务上下游及支撑服务的基础设施纳入到整个故障分析的链路中,再结合告警、变更、高负载等事件进行全面分析,实现故障的深度诊断,快速定位故障根因,并清晰地给出关键性结论,更加方便企业去做分析和判断。



3

故障可观测的场景价值


  1. 故障定位:作为运维人员,皆希望通过故障定位工具或智能分析快速完成故障根因分析,以便于制定后续恢复方案。「故障可观测」可使运维人员不依赖个人运维经验,快速完成故障定位。

  2. 故障处理:「故障可观测」可帮助运维人员迅速恢复服务可用性,彻底解决故障源头。

  3. 建设故障处理的标准流程:提供标准化故障处理流程,协助故障处理时各个角色的工作可高效开展。特别是作为运维平台负责人,针对已解决完的同类型故障进行归纳总结后,可制定故障处理的标准流程规范,确保不同的运维人员对同一类故障的处理是标准可控


系统故障不应该成为企业的负担。优维希望通过全新升级的故障可观测能力来改变过去传统的故障排查与处理,并从容应对各种不确定性,为企业的业务和系统保驾护航。