受限于拨测节点自身的环境,单一节点的拨测结果可能并不能反映出监控实例的真实运行状态


本期EasyOps产品使用最佳实践,我们将为您揭晓:

  • 如何基于多点决策配置拨测监控,以避免拨测机自身网络问题而误告警?

  • 如何对指标实现“降维”,从而汇聚指标?


「 背 景 」


拨测监控作为监控体系中重要的一环,为管理员提供最为直接的状态监控。然而,受限于拨测节点自身的环境和网络环境,可能单一拨测节点的结果并不能反映出监控实例的实际运行状态。比如,当拨测节点所在的网络发生故障时,或者和监控实例的网络中断时,此时会认为监控实例的服务不可用。


但是,这种判断可能是错误的。


因此,多点决策的需求就产生了。它基于这样一种监控逻辑:假设有两个拨测节点,分布于两个不同的环境或者网络,同时对目标实例拨测。仅当超过半数的拨测节点(也就是两台拨测机都发生告警时),才认为目标实例异常时,才发出拨测告警。


before:




after:




「 配 置 说 明 」


1.针对主机配置拨测采集策略,并且指定两台拨测机。



2.配置汇聚指标,这里作详细说明:


拨测的指标:detect_code包含着多个维度,而我们希望把detectAgentId和detectAgentName这两个维度降维了,让detect_code可通过jobId来汇聚成一个指标。


因此,需要作如下配置表达式:avg(detect_code ) by (stepName,jobId,customTag)



上述表达式,说明新指标的维度是stepName,jobId,customTag,把agent相关的维度聚合在一起了。


此时,两台拨测机的汇聚结果可参考如下表格:



可知,只有当两台拨测机都返回1的返回码时,也就是两台拨测机都认为实例故障时,多点决策返回码才大于0.5,因此0.5可以作为多点决策的判断阈值。


3.配置告警规则



此时,当两台拨测机都探测目标实例失败时,才会发出拨测失败的告警。如果只有一台拨测机认为拨测失败,并不会发出告警,以实现了半数以上判断为失败才失败的逻辑。


该实践提供了多点决策的能力,弥补了拨测节点的单点缺陷。