创建云上 Kubernetes 集群¶
部署 Kubernetes 集群是为了支持高效的 AI 算力调度和管理,实现弹性伸缩,提供高可用性,从而优化模型训练和推理过程。
前置条件¶
- 已安装 AI 算力平台已
- 有一个管理员权限的账号
- 准备一台带 GPU 的物理机
- 分配两段 IP 地址(Pod CIDR 18 位、SVC CIDR 18 位,不能与现有网段冲突)
创建步骤¶
- 以 管理员身份 登录 AI 算力平台
-
创建并启动 3 台不带 GPU 的云主机用作集群的 Master 节点
- 配置资源,CPU 16 核,内存 32 GB,系统盘 200 GB(ReadWriteOnce)
- 网络模式选择 Bridge(桥接)
- 设置 root 密码或添加 SSH 公钥,方便以 SSH 连接
- 记录好 3 台主机的 IP
-
导航至 容器管理 -> 集群列表 ,点击右侧的 创建集群 按钮
-
按照向导,配置集群的各项参数
配置完节点信息后,点击 开始检查 ,
每个节点默认可运行 110 个 Pod(容器组),如果节点配置比较高,可以调整到 200 或 300 个 Pod。
-
等待集群创建完成。
-
在集群列表中,找到刚创建的集群,点击集群名称,导航到 Helm 应用 -> Helm 模板 ,在搜索框内搜索 metax-gpu-extensions,点击卡片
-
点击右侧的 安装 按钮,开始安装 GPU 插件
输入名称,选择命名空间,在 YAMl 中修改镜像地址:
-
自动返回 Helm 应用列表,等待 metax-gpu-extensions 状态变为 已部署
-
到此集群创建成功,可以去查看集群所包含的节点。你可以去创建 AI 工作负载并使用 GPU 了。
下一步:创建 AI 工作负载