操作系统信息
虚拟机 Ubuntu20.04

KubeSphere v3.4 kubernetes v1.23.15 promethues-operator v0.55.1

问题是什么
promethues-operator servicemonitor nvidia-dcgm-exporter 为什么用了一段是时间后会自动消失?

    tangpan
    应该是 gpu-operator 在Reconcile 这个资源,可能需要检查下 gpu-operator 的相应逻辑,prometheus-operator 不会删除它

      6 天 后

      frezes 感谢,我看了gpu=operator的clusterpolicy似乎确实有删除的servicemonitor的操作,我把这个servicemonitor从gpu-operator中移动到其他的命名空间中就不会再消失了

      3 个月 后

      删除的原因是因为在gpu-operator检测到如果dcgmExporter.serviceMonitor.enable为false的话会自动删除该namespace下名为nvidia-dcgm-exporter的ServiceMonitor,很巧,你的ServiceMonitor就叫这个名称,如果换个名称就不会被删除了。或者采用如下方式通过gpu-operator开启这个ServiceMonitor。

      kubectl edit clusterpolicies.nvidia.com cluster-policy修改如下部分开启ServiceMonitor,会自动给你创建出名为nvidia-dcgm-exporter资源

        1 个月 后