GPU 告警规则¶

本文介绍如何在算丰 AI 算力平台设置 GPU 相关的告警规则。

前置条件¶

本节介绍 GPU 告警常用的指标，分为两个部分：

指标名称	指标单位	说明
DCGM_FI_DEV_GPU_UTIL	%	GPU 利用率
DCGM_FI_DEV_MEM_COPY_UTIL	%	显存利用率
DCGM_FI_DEV_ENC_UTIL	%	编码器利用率
DCGM_FI_DEV_DEC_UTIL	%	解码器利用率
DCGM_FI_DEV_FB_FREE	MB	表示显存剩余量
DCGM_FI_DEV_FB_USED	MB	表示显存使用量
DCGM_FI_DEV_GPU_TEMP	摄氏度	表示当前 GPU 的温度度数
DCGM_FI_DEV_POWER_USAGE	W	设备电源使用情况
DCGM_FI_DEV_XID_ERRORS	-	表示一段时间内，最后发生的 XID 错误号。XID 提供 GPU 硬件、NVIDIA 软件或应用中的错误类型、错误位置、错误代码等信息，更多 XID 信息

指标名称	指标单位	说明
kpanda_gpu_pod_utilization	%	表示 Pod 对 GPU 的使用率
kpanda_gpu_mem_pod_usage	MB	表示 Pod 对 GPU 显存的使用量
kpanda_gpu_mem_pod_utilization	%	表示 Pod 对 GPU 显存的使用率

这里会介绍如何设置 GPU 告警规则，使用 GPU 卡利用率指标作为案例，请用户根据实际的业务场景选择指标以及编写 promql。

目标：当GPU卡利用率在五秒钟内一直保持 80% 的利用率时发出告警