• 监控日志
  • WhizardTelemetry 监控开启GPU监控,DCGM nodeSelector不生效

创建部署问题时,请参考下面模板,你提供的信息越多,越容易及时获得解答。如果未按模板创建问题,管理员有权关闭问题。
确保帖子格式清晰易读,用 markdown code block 语法格式化代码块。
你只花一分钟创建的问题,不能指望别人花上半个小时给你解答。

操作系统信息
物理机,Ubuntu22.04,4C/8G

Kubernetes版本信息

Client Version: v1.31.0
Kustomize Version: v5.4.2
Server Version: v1.31.0

容器运行时

Version:  0.1.0
RuntimeName:  containerd
RuntimeVersion:  v1.7.13
RuntimeApiVersion:  v1

KubeSphere版本信息
v4.1.2

kk在线安装k8s,helm安装ks-core

问题是什么
开启GPU监控的扩展组件配置如下:

whizard-monitoring-helper:
  etcdMonitoringHelper:
    enabled: false
  gpuMonitoringHelper:
    enabled: true
...
dcgmExporter:
  enabled: true
  nodeSelector:
    gpu: true

我已经安装过nvidia-device-plugin的daemonset,也指定了nodeSelector为gpu: true,目前的现象是dcgm在没有gpu: true的node上也运行了(当然了,没有gpu是启动失败的)

节点label信息

监控组件运行情况

nvidia-device-plugin运行情况

    • frezesK零S

      FeiYi

      这个其实很简单啊,你看下 dcgm-exporter 的 daemonset 有没有nodeSelector 字段,与配置是否一致?

      接着排查时渲染的问题还是 daemonset 调度Pod 的问题。 这里 gpu: true 最好调整为 gpu: “true”

      商业产品与合作咨询