Skip to content

集群巡检

集群巡检可以通过自动或手动方式,定期或随时检查集群的整体健康状态,让管理员获得保障集群安全的主动权。 基于合理的巡检计划,这种主动自发的集群检查可以让管理员随时掌握集群状态,摆脱之前出现故障时只能被动排查问题的困境,做到事先监控、提前防范。

算丰 AI 算力平台容器管理模块提供的集群巡检功能,支持从集群、节点、容器组(Pod)三个维度进行自定义巡检项,巡检结束后会自动生成可视化的巡检报告。

  • 集群维度:检查集群中系统组件的运行情况,包括集群状态、资源使用情况以及控制节点特有的巡检项等,例如 kube-apiserveretcd 的状态。
  • 节点维度:包括控制节点和工作节点通用的检查项,例如节点资源使用情况、句柄数、PID 状态、网络状态。
  • 容器组维度:检查 Pod 的 CPU 和内存使用情况、运行状态、PV 和 PVC 的状态等。

如需了解或执行安全方面的巡检,可参考算丰 AI 算力平台支持的安全扫描类型