@SeesawLiu
监控是正常的,可以直接通过 Prometheus Console 查询确认下问题:
首先查询节点网络指标的表达式如下:
sum by (node, host_ip, role, cluster) (irate(node_network_transmit_bytes_total{device!~"veth.+",job="node-exporter"}[5m]) * on (namespace, pod, cluster) group_left (node, host_ip, role) node_namespace_pod:kube_pod_info:)
这个指标没有排除本地网卡或虚拟设备,如 eth* 、calico、docker ,所有设备的流量都会累加求和,会看到用量很高;但为什么突然又从波峰降到谷底,这个需要具体看下,可以把 device 加入到 sum by(node, host_ip, role, cluster,device) 中看网络设备具体监控信息