LleonanorK零S
在esxi6.7上,虚拟机OS由centos7.6换成ubuntu18.04部署成功。几个坑:
1、要在esxi6.7选择某个work角色的虚拟机做gpu直通。在虚拟机高级设置中添加hypervisor.cpuid.v0=FALSE
2、直通设置完成后ubuntu启动不了。在“x86:booting smp configuration….”处挂住。这时要在虚拟机升级intelcpu的微码。
sudo dpkg -l|grep intel
sudo apt-get purge intel-microcode
sudo update-grub
sudo reboot
升级后重启ubuntu可以正常启动了。
3、在线升级可能会超时。要下载镜像特别多。最好翻墙先下载好需要的镜像。先用helm fetch nvidia/gpu-operator 下载压缩包,解压后进去文件夹打开 values.yaml找到镜像名称下载。如果翻墙机器不是在设置了gpu直通的k8s机器,docker save -o 导出这些镜像然后docker load 导入镜像。
下载的镜像名称:
nvcr.io/nvidia/k8s/container-toolkit:1.4.7-ubuntu18.04
nvcr.io/nvidia/gpu-operator:1.6.2
nvcr.io/nvidia/driver:460.32.03-ubuntu18.04
nvcr.io/nvidia/k8s/dcgm-exporter:2.1.4-2.2.0-ubuntu20.04
nvcr.io/nvidia/k8s-device-plugin:v0.8.2-ubi8
nvcr.io/nvidia/gpu-feature-discovery:v0.4.1
nvcr.io/nvidia/k8s/cuda-sample:vectoradd-cuda10.2