「 背 景 」


遇到页面报错时,是不是感到困扰,不知如何解决?

页面响应缓慢时,是否感到迷茫,不清楚从何入手排查?

面对主机高负载时,是不是觉得确认异常根因很有挑战?


本期最佳实践为您讲解如何通过控制台排查定位:

  1. 页面报错时,获取traceId确认报错组件;通过全局监控确认组件状态,查看组件日志分析原因。

  2. 页面响应缓慢时,查看集群主机状态并通过链路跟踪发现耗时最长的节点,进一步查看组件状态、日志,优化解决。

  3. 主机高负载时,通过主机上的CPU使用、内存使用Top10进程来定位,找到占用资源最高的进程,抓取堆栈信息进行分析。


「 全 局 监 控 」



平台监控包括四个模块: 全局监控、存储组件监控、逻辑组件监控、监控流监控


「 主 机 监 控 


默认首页为主机监控,在这个界面我们可以看到这个集群的整体情况,集群中各主机的状态。集群状态的判断为各主机心跳状态+ 时间偏移+磁盘使用率低于90,这3个指标都正常的时候集群状态才为正常。图一跟图二的对比可以看出来,当磁盘使用率降到90以下后集群状态才回归正常。



接下来的部分是常用指标的折线图,最长保留60天的数据,可以通过调整右上角的时间范围来看长时间的趋势。


主机资源不足的情况下,我们常常会去找占用资源最多的进程。控制台同样集成这样的能力,我们可以按主机、CPU、内存、进程名来过滤,定位进程的资源使用情况。这里记录的是某个时刻的Top10进程,如果进程没有进到前10,则会搜索不到。




「 组 件 状 态 


组件状态主要展示集群组件的运行状态,按组件类型分tab展示:后台组件、资源包(以-M、-db、-R结尾的组件)、前端插件(以NA、NB结尾的组件)



该页面提供过滤、查询等功能,当我们已知组件部分信息时,这个功能能帮助我们确认组件部署所在的主机、组件监听的端口、名字服务以及状态。如果组件状态为异常,点击组件名可以查看详细信息。如果为下线组件,可以标记忽略,避免误报。