开始观测¶
AI 算力中心 平台实现了对多云多集群的纳管,并支持创建集群。在此基础上,可观测性 Insight 作为多集群统一观测方案,通过部署 insight-agent 插件实现对多集群观测数据的采集,并支持通过 AI 算力中心 可观测性产品实现对指标、日志、链路数据的查询。
insight-agent 是可观测性实现对多集群数据采集的工具,安装后无需任何修改,即可实现对指标、日志以及链路数据的自动化采集。
通过 容器管理 创建的集群默认会安装 insight-agent,故在此仅针对接入的集群如何开启观测能力提供指导。
可观测性 Insight 作为多集群的统一观测平台,其部分组件的资源消耗与创建集群的数据、接入集群的数量息息相关,在安装 insight-agent 时,需要根据集群规模对相应组件的资源进行调整。
-
根据创建集群的规模或接入集群的规模,调整 insight-agent 中采集组件 Prometheus 的 CPU 和内存,请参考: Prometheus 资源规划
-
由于多集群的指标数据会统一存储,则需要 AI 算力中心 平台管理员根据创建集群的规模、接入集群的规模对应调整 vmstorage 的磁盘,请参考:vmstorage 磁盘容量规划。
-
如何调整 vmstorage 的磁盘,请参考:vmstorge 磁盘扩容。
由于 AI 算力中心 支持对多云多集群的纳管,insight-agent 目前也完成了部分验证,由于监控组件冲突问题导致在 Openshift 4.x 集群中安装 insight-agent 会出现问题,若您遇到同样问题,请参考以下文档: