优维产品最佳实践第17期：善用控制台-devops-优维科技

「背景」

遇到页面报错时，是不是感到困扰，不知如何解决？

页面响应缓慢时，是否感到迷茫，不清楚从何入手排查？

面对主机高负载时，是不是觉得确认异常根因很有挑战？

本期最佳实践为您讲解如何通过控制台排查定位：

页面报错时，获取traceId确认报错组件；通过全局监控确认组件状态，查看组件日志分析原因。
页面响应缓慢时，查看集群主机状态并通过链路跟踪发现耗时最长的节点，进一步查看组件状态、日志，优化解决。
主机高负载时，通过主机上的CPU使用、内存使用Top10进程来定位，找到占用资源最高的进程，抓取堆栈信息进行分析。

「全局监控」

平台监控包括四个模块: 全局监控、存储组件监控、逻辑组件监控、监控流监控

「 主机监控 」

默认首页为主机监控，在这个界面我们可以看到这个集群的整体情况，集群中各主机的状态。集群状态的判断为各主机心跳状态+ 时间偏移+磁盘使用率低于90，这3个指标都正常的时候集群状态才为正常。图一跟图二的对比可以看出来，当磁盘使用率降到90以下后集群状态才回归正常。

接下来的部分是常用指标的折线图，最长保留60天的数据，可以通过调整右上角的时间范围来看长时间的趋势。

主机资源不足的情况下，我们常常会去找占用资源最多的进程。控制台同样集成这样的能力，我们可以按主机、CPU、内存、进程名来过滤，定位进程的资源使用情况。这里记录的是某个时刻的Top10进程，如果进程没有进到前10，则会搜索不到。

「组件状态 」

组件状态主要展示集群组件的运行状态，按组件类型分tab展示：后台组件、资源包（以-M、-db、-R结尾的组件）、前端插件（以NA、NB结尾的组件）

该页面提供过滤、查询等功能，当我们已知组件部分信息时，这个功能能帮助我们确认组件部署所在的主机、组件监听的端口、名字服务以及状态。如果组件状态为异常，点击组件名可以查看详细信息。如果为下线组件，可以标记忽略，避免误报。

上一篇：一图了解优维绿色低碳建筑数智云平台！

下一篇：优维科技携手奥意建筑打造绿色低碳建筑数智云平台，助力实现“双碳”未来！

DevOps 和 SRE：迈向可靠软件交付的协作之旅

Murphy：优维大模型运维数智人上线服役

赋能 DevOps：平台工程的关键作用

开发者图鉴 | 日常生活中常用的数据结构有哪些？

优维（应用）数字化架构管理：让企业运维天堑变通途

为什么GraphQL是构建微服务的更好选择？

开发者图鉴 | 云成本降低技术

重磅！优维科技发布EasyOps7.0大版本

2024 年云繁荣：驾驭人工智能驱动转型浪潮

开发者图鉴 | 8种流行的网络协议

优维科技Easy DevOps全栈运维平台国产化认证5连击

金融行业| 光大银行打造智能化运维支撑数字化业务运营

云智一体|产业类客户案例解析

IT资源轻松管理！优维架构&模型视图上线啦！

案例｜优维＆百丽打造传统行业统一运维平台

案例| 优维&东莞银行打造自动化运维平台

UGeek大咖说第十二期 | 大咖云集：可观测性的应用创新与落地研讨会

涨知识| 什么是个人碳账户？如何使用？

UGeek大咖说第十一期 | B站：以SLO为核心的可用性观测与质量运营

优维案例|智慧监狱优维一体化管控平台解决方案