GPU 调度配置(Binpack 和 Spread )¶
本文介绍使用 NVIDIA vGPU 时,如何通过 Binpack 和 Spread 的 GPU 调度配置减少 GPU 资源碎片、防止单点故障等,实现 vGPU 的高级调度。 算丰 AI 算力平台提供了集群和工作负载两种维度的 Binpack 和 Spread 调度策略,分别满足不同场景下的使用需求。
前置条件¶
- 集群节点上已正确安装 GPU 设备。
- 集群中已正确安装 gpu-operator 组件 和 Nvidia-vgpu 组件。
- 集群节点列表中,GPU 模式下存在 NVIDIA-vGPU 类型。
使用场景¶
-
基于 GPU 卡维度调度策略
- Binpack:优先选择节点的同一张 GPU 卡,适用于提高 GPU 利用率,减少资源碎片。
- Spread:多个 Pod 会分散在节点的不同 GPU 卡上,适用于高可用场景,避免单卡故障。
-
基于节点维度的调度策略
- Binpack: 多个 Pod 会优先选择同一个节点,适用于提高 GPU 利用率,减少资源碎片。
- Spread:多个 Pod 会分散在不同节点上,适用于高可用场景,避免单节点故障。
集群维度使用 Binpack 和 Spread 调度配置¶
Note
默认情况下,工作负载会遵循集群级别的 Binpack 和 Spread 调度配置。 若工作负载单独设置了与集群不一致的 Binpack 和 Spread 调度策略,则该工作负载优先遵循其本身的调度策略。
-
在 集群列表 页选择需要调整 Binpack 和 Spread 调度策略的集群,点击右侧的 ┇ 操作图标并在下拉列表中点击 GPU 调度配置 。
-
根据业务场景调整 GPU 调度配置,并点击 确定 后保存。
工作负载维度使用 Binpack 和 Spread 调度配置¶
Note
当工作负载维度的 Binpack 和 Spread 调度策略与集群级别的配置冲突时,优先遵循工作负载维度的配置。
参考以下步骤,使用镜像创建一个无状态负载,并在工作负载中配置 Binpack 和 Spread 调度策略 。