如何建立新一代端到端监控体系,覆盖敏态和稳态系统,是一个重大的挑战课题。


01

“前言"

金融行业IT应用系统是典型“稳态+敏态”双态架构,稳态核心业务系统,敏态偏前端,微服务架构。两种应用系统的监控方式差别巨大,传统的应用系统以BPC模式监控为主,主要是以NPM为手段,敏态系统今天以微服务分布式链路监控为手段,但后者在金融应用还是偏低。而从金融系统的监控平台体系角度来看,也面临着一系列的挑战:

  • 过去的监控平台基本上聚焦在资源层监控,且分散独立;微服务化时代,需要更加面向业务/应用,数据整合与关联;

  • 过去的监控体系以黑盒/事后监控为主,如何变成主动式白盒监控?

  • 金融行业IT系统呈现双态IT特征,敏态和稳态监控手段差异很大,系统分散,如何构建统一数据体系?

  • 复杂的微服务系统架构,再结合封闭的后端稳态IT系统,透视化整个业务流请求过程,是个极大的挑战;

  • 故障的根因分析过去一直没有找到很好的解决方案,在新一代监控体系中,如何做到故障快速溯源,是关键问题;

  • 应用的多维评估,比如说容量、性能和可用性等等,都需要深度依赖一份细粒度的应用访问数据。

面对上述问题,我们提炼总结了一套完整的监控架构:新一代IT资源层监控能力+服务链路可观测能力的统一监测平台。

  1. 以CMDB为资源图谱层,进一步提供资源监控的能力,从而为深层次的故障根因分析提供资源层关系能力;
  2. 标准化监控对象,标准化数据接入,从数据存储层面解决CMDB资源数据与监控指标数据统一标识的技术难题,提供数据实时聚合计算、基础场景化视图与灵活Dashboard能力,打造数据运营分析场景;
  3. 以业务/服务流监控为上层抓手,快速感知业务故障,并快速定位到业务故障的服务层根因,结合资源层图谱能力,可以深入到底层基础设施架构和PaaS架构。
EasyObserve&EasyTracing  优维服务观测产品架构



架构设计要点:

  • 融合多种数据采集手段

  • 统一事件接入、压缩、关联分析处理的能力

  • 统一指标、日志、Tracing和事件四大数据采集、处理和存储体系

  • 提供服务流tracing数据和IT资源状态数据血缘分析的能力



02

“面向金融的业务流监控落地实践"


在这里,以我们在金融行业的落地实践情况,做一个总结梳理,如何实现横向端到端服务链路监控,以及纵向下穿到资源层的监控。


业务导航全链路,主动嵌入BusinessID


使用BusinessID业务码建立业务树,最底层BusinessID对应于业务URL背后的调用关系链,为业务方提供不同业务维度的调用关系图、黄金指标(访问量、成功率、响应时间、错误码)统计数据。


//数据为演示环境的虚拟数据,下同


异构环境的全新数据管理体系:旁路抓包+日志采集


金融异构的环境中,存在大量第三方组件与第三方供应商的软件。部分由于非自研与时间较久无法改造,则会在链路中造成中断。业界的分布式链路追踪系统,尚无整合主机监控、节点监控、基础性能监控、日志链路数据、应用日志以及应用应急操作的先例,对于某些无法改造或对系统负载敏感度非常高的业务系统,可以通过旁路抓包的方案,获取相关的链路信息,解决了金融业异构系统主机链路改造受限的问题。

 

全栈式根因定位,借助应用地图与业务导航

CMDB建立资源图谱,构建应用地图;链路追踪平台实时监测全链路运行情况,构建业务导航,基于CMDB配置数据关联关系整合,通过静态配置数据与动态监控数据的结合,收敛告警,定位故障根源,进一步可以对异常对象进行重启、停止、切换等应急操作,以快速恢复业务。

 

架构可视化,数字化驱动IT架构管理升级

千万级架构图实时自动画像:微服务架构下,业务架构图的绘制非常困难,手工维护几乎是不可能的事情,链路追踪平台将使用链路追踪采集到的数据,进行业务真实架构图的绘制,从而方便研发进行业务架构的梳理。



快速故障定位,提升系统的可用性

微服务下的故障定位变得特别困难,未来要应对业务量的增长,越来越多的系统会改造为微服务系统,技术架构在往前发展的同时,运维方也要跟上脚步。这是分布式链路追踪最基础也是最核心的应用场景,切实为故障定位带来价值,解决运维人员痛点;


传统监控的颗粒度只能做到单个应用的相关指标监控,一般没有做应用间调用次数、请求访问成功率、访问时延的监控。因为分布式链路追踪的好处在于把应用串联起来,可以非常方便地提供这些监控数据指标,同时支持下钻查看接口级别的监控数据。把应用串联起来,遇到问题产生告警,使运维人员非常清楚系统状态。




03

“平台能力"


EasyTracing 优维分布式服务观测平台


微服务架构除了带来技术上的变革,也带来由于服务剧增导致的服务调用关系复杂、性能评估和问题追踪成本增高等问题;因而构建服务级的可观测能力变得尤为重要,例如:

  • 用户体验优化;
  • 后台问题根源分析;
  • 分布式系统内部各个组件的调用情况;
  • 服务链路染色;
  • 系统可用性等等。


EasyTracing 通过分布式追踪技术进行监测





04

“总结"


优维科技打造的基于分布式链路追踪技术和优维科技新一代IT资源层监控能力+服务链路可观测能力的统一监测平台,提升告警准确性,降低故障率;充分挖掘大数据的价值,通过大数据建模,实现精确的业务流动态黄金指标监控,在用户运营方面提供决策分析依据;从数字化运维到数字化运营,全方位实现了客户从数据精细化运营方向转变的战略。


如果您有兴趣了解优维的IT运维全景监控解决方案,请点击链接:优维IT运维全景监控