某子节点POD监控突然全部失效,看了
kube-state-metrics、metrics-server、prometheus-k8s等日志
主要为metrics-server的报错内容:
unable to fully collect metrics: unable to fully scrape metrics from source kubelet_summary:k8s-node42: unable to fetch metrics from Kubelet k8s-node42 (k8s-node42): Get https://k8s-node42:10250/stats/summary?only_cpu_and_memory=true: context deadline exceeded
使用API Server直接访问 /api/v1/proxy/nodes/{name}/metrics 和 /api/v1/proxy/nodes/{name}/stats 会一直没响应,访问 /api/v1/proxy/nodes/{name}/pods/ 是正常的, 请问是这个节点的kubelet出问题了吗?应该怎么排查呢?之前也出现过这种情况重启了一下就好了。