监控指标与告警

 

监控指标

更新时间 2020-12-01

SMR 集群提供资源性能监控指标和告警信息。

  • 资源监控指标统计了云服务器的资源信息,如 CPU 使用率、硬盘 IOPS 情况等,可用于查看系统性能是否到达瓶颈。
  • 服务监控指标统计了用于性能分析的常用的 Metrics 信息,可用于定位分析数据库的性能。

注意:

SMR 集群 Agent 只用于监控集群的服务和资源指标,不会收除集除监控指标外的其它数据。

支持的服务监控指标

通过对接 Hadoop、Spark 和 Hive 原生的监控,可获取丰富的服务监控信息。详情参见Hadoop、Spark 和 Hive 原生的服务监控

为了帮助用户更好的管理和维护 SMR 集群,我们提供了部分针对 YARN、 HDFS 以及 Spark 服务级别分角色的监控。

  • YARN 服务监控,包括 YARN 管理的各 NodeManager 节点状态、运行中的 YARN 应用、 YARN 应用状态、 YARN 集群总内存、 YARN 集群 virtual cores、YARN containers、NodeManger 节点内存等。

YARN

YARN

YARN

YARN

  • HDFS 服务监控,包括 DFS 文件状态、 DFS 空间占比、 DFS 容量、各 DataNode 状态、 HDFS 存储空间、 DFS 块及垃圾回收信息等。

HDFS

HDFS

HDFS

  • Spark 服务监控,包括 Spark Standalone 模式下 worker 节点状态、 spark applications 状态、各 worker 节点计算及存储资源等。

HDFS

HDFS

支持的资源监控指标

通过云监控告警服务为集群服务器的资源和服务提供监控管理。当集群监控项超过阈值时触发告警,并通过短信、邮件等形式发送告警通知。

监控项 监控周期 单位 指标含义
CPU 5分钟 % 统计当前资源 CPU 使用率。
以 % 为单位。
内存 5分钟 % 统计当前资源内存使用率。
以 % 为单位。
硬盘使用率 5分钟 % 统计当前资源硬盘使用率。
以 % 为单位。
硬盘 IOPS 5分钟 counts/s 统计每秒资源硬盘 IOPS 读取或写入次数,可分别查看读取或写入监控指标。
以次每秒为单位。
硬盘吞吐量 5分钟 MByte/s 统计每秒资源硬盘读取或写入速率,可分表获取读取或写入速率。
以 MByte 每秒为单位。
这篇文档解决了您的问题吗?
0
0