如何利用故障根因分析快速定位故障原因？-devops-优维科技

「背景」

众所周知，变更是线上环境不稳定的⾸要因素，有研究表明，线上70%的故障都是由某种变更⽽触发的。因此，当⽣产环境发⽣故障产⽣告警时，管理员第⼀直觉是怀疑近期是否发⽣过变更。此时，我们往往需要⼿动查找变更⽇志，确认近期的变更计划，这个过程既繁琐⼜低效。

另外⼀种导致⽣产环境故障的原因，则是服务所在基础设施的⾼负载，⾼饱和度影响了服务的容量和性能。

我们希望具备这么⼀种⾃动分析的能⼒，它能够联动⽣产环境的告警，并⾃动分析产⽣告警的原因是由于变更，还是由于系统的⾼负载。并且分析结果能以直观的拓扑结构展示出来，我们希望能看到服务间的调⽤关系，所依赖的中间环节和基础设施以及哪个环节出现变更或者异常。如下图所示：

并且，它可以智能将告警服务周边所有的服务调⽤链路环节贯通并分析出导致异常的可能原因：

这种能⼒就是EasyOps平台的故障根因分析的能⼒。我们看看如何配置和使⽤它们，以及图表达的含义。

「实践」

⾸先，先定义出服务的SLI。我们选择 detect_code 作为服务能⼒的SLI，我们认为⼀旦 detect_code 不为0，表示服务不可⽤。此时告警系统会触发⼀个严重级别的故障，这个故障将被管理员接收。

这个SLI已经内置到平台当中，⽆需额外配置。我们需要做的仅仅是定义出拨测采集策略和告警规则即可。⽐如：

注意：选择的告警资源类型是【服务】模型下的⼦模型，此处为HTTP服务。平台定义只针对服务类的资源做根因分析。

仅需简单的两步配置，即可使⽤故障根因分析的能⼒！

「效果解释」

⼀旦某个HTTP服务发⽣告警，我们通过点击【故障分析】，即可跳转到根因分析⻚：

以开头的图为例说明：

通过上图可知，标红的服务为告警服务，其下是⼀系列围绕此服务的调⽤与被调⽤服务，并且⽗服务和⼦服务的关系也呈现出来。⽽拓扑最下层是基础设施，也就是主机。

通过这个拓扑结构我们可知，告知故障的原因⼤概率是两台操作系统主机发⽣过变更动作。结合右侧的传播图我们进⼀步明确变更时间点和故障时间点：

通过上图可知，变更是发⽣在1⽉18⽇，22:03:30，⽽故障是发⽣在1⽉18⽇，22:04:09，很明显此次故障是由于变更导致。在上述案例中，确实也是由于变更时将有缺陷的代码包发布到⽣产环境上，进⽽导致服务不可⽤。

在明确了故障原因后，管理员可以快速决定下⼀步操作，⽐如及时回滚，以减少故障修复时间，提⾼MTTR。

上一篇：优维全面可观测产品能力分解②：变更可观测

下一篇：优维全面可观测产品能力分解③：应用服务可观测

赋能 DevOps：平台工程的关键作用

开发者图鉴 | 日常生活中常用的数据结构有哪些？

优维（应用）数字化架构管理：让企业运维天堑变通途

为什么GraphQL是构建微服务的更好选择？

开发者图鉴 | 云成本降低技术

重磅！优维科技发布EasyOps7.0大版本

2024 年云繁荣：驾驭人工智能驱动转型浪潮

开发者图鉴 | 8种流行的网络协议

优维全面可观测产品能力分解⑦：资源可观测

罗马不是一天建成的：DevOps 转型分步指南

优维科技Easy DevOps全栈运维平台国产化认证5连击

金融行业| 光大银行打造智能化运维支撑数字化业务运营

云智一体|产业类客户案例解析

IT资源轻松管理！优维架构&模型视图上线啦！

案例｜优维＆百丽打造传统行业统一运维平台

案例| 优维&东莞银行打造自动化运维平台

UGeek大咖说第十二期 | 大咖云集：可观测性的应用创新与落地研讨会

涨知识| 什么是个人碳账户？如何使用？

UGeek大咖说第十一期 | B站：以SLO为核心的可用性观测与质量运营

优维案例|智慧监狱优维一体化管控平台解决方案