创建部署问题时,请参考下面模板,你提供的信息越多,越容易及时获得解答。如果未按模板创建问题,管理员有权关闭问题。
确保帖子格式清晰易读,用 markdown code block 语法格式化代码块。
你只花一分钟创建的问题,不能指望别人花上半个小时给你解答。
操作系统信息
物理机,Ubuntu22.04,4C/8G
Kubernetes版本信息
Client Version: v1.31.0
Kustomize Version: v5.4.2
Server Version: v1.31.0
容器运行时
Version: 0.1.0
RuntimeName: containerd
RuntimeVersion: v1.7.13
RuntimeApiVersion: v1
KubeSphere版本信息
v4.1.2
kk在线安装k8s,helm安装ks-core
问题是什么
开启GPU监控的扩展组件配置如下:
whizard-monitoring-helper:
etcdMonitoringHelper:
enabled: false
gpuMonitoringHelper:
enabled: true
...
dcgmExporter:
enabled: true
nodeSelector:
gpu: true
我已经安装过nvidia-device-plugin的daemonset,也指定了nodeSelector为gpu: true
,目前的现象是dcgm在没有gpu: true
的node上也运行了(当然了,没有gpu是启动失败的)
节点label信息

监控组件运行情况

nvidia-device-plugin运行情况
