• 告警通知
  • node-exporter运行中,Prometheus查询到down了

创建部署问题时,请参考下面模板,你提供的信息越多,越容易及时获得解答。
发帖前请点击 发表主题 右边的 预览(👀) 按钮,确保帖子格式正确。
你只花一分钟创建的问题,不能指望别人花上半个小时给你解答。

操作系统信息
例如:虚拟机/物理机,Centos7.5/Ubuntu18.04,4C/8G

Kubernetes版本信息
例如:v18.6。单节点还是多节点。

容器运行时
例如,使用 docker/containerd,版本多少

KubeSphere版本信息
例如:v2.1.1/v3.0.0。离线安装还是在线安装。已有K8s安装还是全套安装。

问题是什么
node-exporter里面kube-rbac-proxy容器是做什么的,一直有报错?求大大佬指点

    coke
    kube-rbac-proxy 是认证保护的,这个错误不是很关键,可以看看node-exporter 的日志中是否有报错。

    如果日志中无报错,可以先手动在容器中curl 下这个地址,看下这个metrics 接口耗时多久

    curl -g –request GET ‘http://{node_ip}/metrics’ \
    –header ‘Authorization: Bearer {bearer_token}’

      frezes
      然后如果耗时稍微大于 10s,可以正常返回, 可以配置下node-exporter的servicemonitor,增加scrapeTimeout: 15s 字段
      kubectl edit servicemonitor -n kubesphere-monitoring-system node-exporter

      如果接口不能正常返回,就要排查node-exporter的日志报错信息,解决问题或禁用部分模块以保证接口返回

      node-exporter貌似没有报错日

      请问这个bearer_token我在哪里获取到?

      我改成15秒还是down了。token怎么获取呀?

        coke
        kubectl exec -it -n kubesphere-monitoring-system prometheus-k8s-0 cat /var/run/secrets/kubernetes.io/serviceaccount/token

        coke
        另外,可以同步下节点操作系统信息。或者你可以看看node-exporter的issues

        centos7.9的系统,我试过了他这个好像有时候不稳定请求都很久的

          frezes

          我看过node-exporter有类似的issus,就只是时延过高,可能是文件系统如nfs/xfs等导致的,issue 最后也没能真正定位到问题在哪,可以去翻翻。所以这里的修复措施是disable collectors,禁用nfs/zfs/xfs,如果还有问题,考虑禁用filefd/filesystem等,这个需要尝试。

          另外重启能简单恢复,但过段时间还会复现,并不能真正解决问题

          是得重启就能恢复,但是不一会就超时了,我设置60秒也还是一样。disable collectors这个能发下吗?

            我禁用了这些已经有一个小时,目前还没出现超时情况

              2 个月 后

              @“coke” @“370569218” 可以同步下使用的内核版本

              2 年 后