5 天 后

ulcadmin
pod 监控没有数据检查下 kubelet的 cadvisor 指标暴露是否正常,可以将 Prometheus 对外暴露,查看下 Prometheus console 的 target 中是否有 unhealthy 的 target,可以尝试重启下对应节点 kubelet 试下

    frezes 这个我暴露了 但是没找到你说的cadvisor指标,其他的都是正常的,没有unhealthy 的 target

      frezes

      那是有的 有很多 我ks界面上是有些pod有监控数据,大部分没

      之前都是正常的,重启过机器后成这样了,但是节点监控是正常的

        ulcadmin
        你看下没有Pod 监控的节点,将 node 过滤条件加上 node=“xxx”,是不是这些节点没有对应指标?

          frezes 三个节点是有数据返回的,我找了两个不显示监控的pod,发现也是有数据返回

            ulcadmin
            同步下 Kubesphere 版本,我们用页面调用的PromQL 看下是哪里有问题

              ulcadmin
              round(sum by (namespace, pod) (irate(container_cpu_usage_seconds_total{job="kubelet", pod!="", image!=""}[5m])) * on (namespace, pod) group_left(owner_kind, owner_name) kube_pod_owner{} * on (namespace, pod) group_left(node) kube_pod_info{namespace="xxxx",pod="XXX"}, 0.001)

              将 namespace=“xxxx”,pod=“XXX” 替换为实际的 Pod 信息

                ulcadmin
                那就把 Promql 拆分下,看那部分没有改指标
                sum by (namespace, pod) (irate(container_cpu_usage_seconds_total{job=“kubelet”, pod!="“, image!=”", namespace=“xxx”,pod=“XXX”}[5m]))
                kube_pod_info{namespace=“xxxx”,pod=“XXX”}
                kube_pod_owner{namespace=“xxxx”,pod=“XXX”}