优维产品最佳实践第13期：如何避免拨测机自身网络问题？-devops-优维科技

受限于拨测节点自身的环境，单一节点的拨测结果可能并不能反映出监控实例的真实运行状态

本期EasyOps产品使用最佳实践，我们将为您揭晓：

如何基于多点决策配置拨测监控，以避免拨测机自身网络问题而误告警？
如何对指标实现“降维”，从而汇聚指标？

「背景」

拨测监控作为监控体系中重要的一环，为管理员提供最为直接的状态监控。然而，受限于拨测节点自身的环境和网络环境，可能单一拨测节点的结果并不能反映出监控实例的实际运行状态。比如，当拨测节点所在的网络发生故障时，或者和监控实例的网络中断时，此时会认为监控实例的服务不可用。

但是，这种判断可能是错误的。

因此，多点决策的需求就产生了。它基于这样一种监控逻辑：假设有两个拨测节点，分布于两个不同的环境或者网络，同时对目标实例拨测。仅当超过半数的拨测节点(也就是两台拨测机都发生告警时)，才认为目标实例异常时，才发出拨测告警。

before:

after:

「配置说明」

1.针对主机配置拨测采集策略，并且指定两台拨测机。

2.配置汇聚指标，这里作详细说明：

拨测的指标：detect_code包含着多个维度，而我们希望把detectAgentId和detectAgentName这两个维度降维了，让detect_code可通过jobId来汇聚成一个指标。

因此，需要作如下配置表达式：avg(detect_code ) by (stepName,jobId,customTag)

上述表达式，说明新指标的维度是stepName，jobId，customTag，把agent相关的维度聚合在一起了。

此时，两台拨测机的汇聚结果可参考如下表格：

可知，只有当两台拨测机都返回1的返回码时，也就是两台拨测机都认为实例故障时，多点决策返回码才大于0.5，因此0.5可以作为多点决策的判断阈值。

3.配置告警规则

此时，当两台拨测机都探测目标实例失败时，才会发出拨测失败的告警。如果只有一台拨测机认为拨测失败，并不会发出告警，以实现了半数以上判断为失败才失败的逻辑。

该实践提供了多点决策的能力，弥补了拨测节点的单点缺陷。

上一篇：重磅消息！优维发布全新产品“应急管理”

下一篇：优维科技荣膺2023DevOps领域极具影响力产品奖

DevOps 和 SRE：迈向可靠软件交付的协作之旅

Murphy：优维大模型运维数智人上线服役

赋能 DevOps：平台工程的关键作用

开发者图鉴 | 日常生活中常用的数据结构有哪些？

优维（应用）数字化架构管理：让企业运维天堑变通途

为什么GraphQL是构建微服务的更好选择？

开发者图鉴 | 云成本降低技术

重磅！优维科技发布EasyOps7.0大版本

2024 年云繁荣：驾驭人工智能驱动转型浪潮

开发者图鉴 | 8种流行的网络协议

优维科技Easy DevOps全栈运维平台国产化认证5连击

金融行业| 光大银行打造智能化运维支撑数字化业务运营

云智一体|产业类客户案例解析

IT资源轻松管理！优维架构&模型视图上线啦！

案例｜优维＆百丽打造传统行业统一运维平台

案例| 优维&东莞银行打造自动化运维平台

UGeek大咖说第十二期 | 大咖云集：可观测性的应用创新与落地研讨会

涨知识| 什么是个人碳账户？如何使用？

UGeek大咖说第十一期 | B站：以SLO为核心的可用性观测与质量运营

优维案例|智慧监狱优维一体化管控平台解决方案