@SeesawLiu

监控是正常的,可以直接通过 Prometheus Console 查询确认下问题:
首先查询节点网络指标的表达式如下:

sum by (node, host_ip, role, cluster) (irate(node_network_transmit_bytes_total{device!~"veth.+",job="node-exporter"}[5m]) * on (namespace, pod, cluster) group_left (node, host_ip, role) node_namespace_pod:kube_pod_info:)

这个指标没有排除本地网卡或虚拟设备,如 eth* 、calico、docker ,所有设备的流量都会累加求和,会看到用量很高;但为什么突然又从波峰降到谷底,这个需要具体看下,可以把 device 加入到 sum by(node, host_ip, role, cluster,device) 中看网络设备具体监控信息

    frezes 通过prometheus找到一些网络设备流量确实很大,现在我还没找到相关的pod

    但我通过cpu的使用分析,怀疑是和数据库相关,比如elasticsearch 8点左右数据表会跨天

    而且我观测到ha-proxy的流量也比较异常,我是按照安装文档配置的,在worker节点使用haproxy代理master的apiserver,按道理只会代理apiserver的6443端口,流量较小,但实际看到流量比较大

    frezes 通过消费记录看,这么大的流量主要是使用守护进程类型的容器,会不会是监控的设备问题

    但是之前没有出现这种问题,而且今天node-exporter其中一个节点也出现了流量降低的情况

    确实没其他思路了

    还有种可能是集群中有大量的警告,导致监控的流量变大

    [未知用户]

    这里你是说到是 Daemonset ,其实它们的网络都是 HostNetwork 模式, 对于 Pod 网络监控我们使用如下表达式进行计算:

    sum by(namespace,pod)(rate(container_network_receive_bytes_total{interface!~"^(cali.+|tunl.+|dummy.+|kube.+|flannel.+|cni.+|docker.+|veth.+|lo.*)"}[5m]))

    而我们再去看 hostnetwork 模式的 Pod,以 calico-node 为例,他没有容器网卡,直接使用的是主机网络,过滤完 interface 后还会存在如主机网卡等,这里网络监控无法精确统计。

    10 天 后

    我检查了日志系统,发现openldap的日志量非常高,每天达到1990万,关闭他的日志,把日志降下来缓解了这个问题。应该是openldap的日志到elastic的流量和elastic节点之间的副本调整带来的网络流量

      1 年 后

      SeesawLiu 我们这边也有一个集群类似问题,也是关闭集群自带的ES解决掉。