• 告警通知
  • node-exporter运行中,Prometheus查询到down了

frezes
然后如果耗时稍微大于 10s,可以正常返回, 可以配置下node-exporter的servicemonitor,增加scrapeTimeout: 15s 字段
kubectl edit servicemonitor -n kubesphere-monitoring-system node-exporter

如果接口不能正常返回,就要排查node-exporter的日志报错信息,解决问题或禁用部分模块以保证接口返回

node-exporter貌似没有报错日

请问这个bearer_token我在哪里获取到?

我改成15秒还是down了。token怎么获取呀?

    coke
    kubectl exec -it -n kubesphere-monitoring-system prometheus-k8s-0 cat /var/run/secrets/kubernetes.io/serviceaccount/token

    coke
    另外,可以同步下节点操作系统信息。或者你可以看看node-exporter的issues

    centos7.9的系统,我试过了他这个好像有时候不稳定请求都很久的

      frezes

      我看过node-exporter有类似的issus,就只是时延过高,可能是文件系统如nfs/xfs等导致的,issue 最后也没能真正定位到问题在哪,可以去翻翻。所以这里的修复措施是disable collectors,禁用nfs/zfs/xfs,如果还有问题,考虑禁用filefd/filesystem等,这个需要尝试。

      另外重启能简单恢复,但过段时间还会复现,并不能真正解决问题

      是得重启就能恢复,但是不一会就超时了,我设置60秒也还是一样。disable collectors这个能发下吗?

        我禁用了这些已经有一个小时,目前还没出现超时情况

          2 个月 后

          @“coke” @“370569218” 可以同步下使用的内核版本

          2 年 后