沐曦 GPU 组件安装与使用¶
本章节提供沐曦 gpu-extensions、gpu-operator 等组件的安装指导和沐曦 GPU 整卡和 vGPU 两种模式的使用方法。
前提条件¶
- 已在沐曦软件中心下载并安装所需的 tar 包, 本文以 metax-gpu-k8s-package.0.7.10.tar.gz 为例。
- 准备 Kubernetes 基础环境
组件介绍¶
Metax 提供了两个 helm-chart 包,一个是 metax-extensions,一个是 gpu-operator,根据使用场景可选择安装不同的组件。
- Metax-extensions:包含 gpu-device 和 gpu-label 两个组件。在使用 Metax-extensions 方案时,用户的应用容器镜像需要基于 MXMACA® 基础镜像构建。且 Metax-extensions 仅适用于 GPU 整卡使用场景。
- gpu-operator:包含 gpu-device、gpu-label、driver-manager、container-runtime、operator-controller 这些组件。 使用 gpu-operator 方案时,用户可选择制作不包含 MXMACA® SDK 的应用容器镜像。gpu-operator 适用于 GPU 整卡和 vGPU 场景。
操作步骤¶
-
从
/home/metax/metax-docs/k8s/metax-gpu-k8s-package.0.7.10.tar.gz
文件中解压出- deploy-gpu-extensions.yaml # 部署yaml
- metax-gpu-extensions-0.7.10.tgz、metax-operator-0.7.10.tgz # helm chart文件
- metax-k8s-images.0.7.10.run # 离线镜像
-
查看系统是否安装驱动
$ lsmod | grep metax metax 1605632 0 ttm 86016 3 drm_vram_helper,metax,drm_ttm_helper drm 618496 7 drm_kms_helper,drm_vram_helper,ast,metax,drm_ttm_helper,ttm
- 如没有内容显示,就表示没有安装过软件包。如有内容显示,则表示安装过软件包。
- 使用 metax-opeartor 时,不推荐在工作节点预安装 MXMACA 内核态驱动,若已安装也无需卸载。
-
安装驱动
gpu-extensions¶
-
推送镜像
-
推送 Helm Chart
-
在算丰 AI 算力平台上安装 metax-gpu-extensions
部署成功之后,可以在节点上查看到资源。
-
修改成功之后就可以在节点上看到带有
Metax GPU
的标签
gpu-operator¶
安装 gpu-opeartor
时的已知问题:
-
metax-operator
、gpu-label
、gpu-device
、container-runtime
这几个组件镜像要带有amd64
后缀。 -
metax-maca
组件的镜像不在metax-k8s-images.0.7.13.run
包里面,需要单独下载maca-mxc500-2.23.0.23-ubuntu20.04-x86_64.tar.xz
这类镜像,load
之后重新修改metax-maca
组件的镜像。 -
metax-driver
组件的镜像需要从https://pub-docstore.metax-tech.com:7001
这个网站下载k8s-driver-image.2.23.0.25.run
文件,然后执行k8s-driver-image.2.23.0.25.run push {registry}/metax
命令把镜像推送到镜像仓库。推送之后修改metax-driver
组件的镜像地址。
使用 GPU¶
安装后可在工作负载中使用沐曦 GPU。注意启用 GPU 后,需选择GPU类型为 Metax GPU
进入容器,执行 mx-smi 可查看 GPU 的使用情况.