删除的原因是因为在gpu-operator检测到如果dcgmExporter.serviceMonitor.enable为false的话会自动删除该namespace下名为nvidia-dcgm-exporter的ServiceMonitor,很巧,你的ServiceMonitor就叫这个名称,如果换个名称就不会被删除了。或者采用如下方式通过gpu-operator开启这个ServiceMonitor。
kubectl edit clusterpolicies.nvidia.com cluster-policy修改如下部分开启ServiceMonitor,会自动给你创建出名为nvidia-dcgm-exporter资源