WhizardTelemetry 监控开启GPU监控,DCGM nodeSelector不生效

FeiYi

创建部署问题时，请参考下面模板，你提供的信息越多，越容易及时获得解答。如果未按模板创建问题，管理员有权关闭问题。
确保帖子格式清晰易读，用 markdown code block 语法格式化代码块。
你只花一分钟创建的问题，不能指望别人花上半个小时给你解答。

操作系统信息
物理机，Ubuntu22.04，4C/8G

Kubernetes版本信息

Client Version: v1.31.0
Kustomize Version: v5.4.2
Server Version: v1.31.0

容器运行时

Version:  0.1.0
RuntimeName:  containerd
RuntimeVersion:  v1.7.13
RuntimeApiVersion:  v1

KubeSphere版本信息
v4.1.2

kk在线安装k8s，helm安装ks-core

问题是什么
开启GPU监控的扩展组件配置如下：

whizard-monitoring-helper:
  etcdMonitoringHelper:
    enabled: false
  gpuMonitoringHelper:
    enabled: true
...
dcgmExporter:
  enabled: true
  nodeSelector:
    gpu: true

我已经安装过nvidia-device-plugin的daemonset，也指定了nodeSelector为gpu: true，目前的现象是dcgm在没有gpu: true的node上也运行了（当然了，没有gpu是启动失败的）

节点label信息

监控组件运行情况

nvidia-device-plugin运行情况

frezes

FeiYi

这个其实很简单啊，你看下 dcgm-exporter 的 daemonset 有没有nodeSelector 字段，与配置是否一致？

接着排查时渲染的问题还是 daemonset 调度Pod 的问题。这里 gpu: true 最好调整为 gpu: “true”