Prometheus 网络流量异常

inksnw · 2023年8月16日

试着8点的时候查看一下pod状态吧, 要么是这个时间node_exporter数据出不来,或者没有, 要么这个时间prometheus工作不正常没有拉数据

frezes · 2023年8月16日

frezes · 2023年8月16日

监控是正常的，可以直接通过 Prometheus Console 查询确认下问题：
首先查询节点网络指标的表达式如下：

sum by (node, host_ip, role, cluster) (irate(node_network_transmit_bytes_total{device!~"veth.+",job="node-exporter"}[5m]) * on (namespace, pod, cluster) group_left (node, host_ip, role) node_namespace_pod:kube_pod_info:)

这个指标没有排除本地网卡或虚拟设备，如 eth* 、calico、docker ，所有设备的流量都会累加求和，会看到用量很高；但为什么突然又从波峰降到谷底，这个需要具体看下，可以把 device 加入到 sum by(node, host_ip, role, cluster,device) 中看网络设备具体监控信息

SeesawLiu · 2023年8月18日

frezes 通过prometheus找到一些网络设备流量确实很大，现在我还没找到相关的pod

但我通过cpu的使用分析，怀疑是和数据库相关，比如elasticsearch 8点左右数据表会跨天

SeesawLiu · 2023年8月18日

而且我观测到ha-proxy的流量也比较异常,我是按照安装文档配置的，在worker节点使用haproxy代理master的apiserver，按道理只会代理apiserver的6443端口，流量较小，但实际看到流量比较大

SeesawLiu · 2023年8月18日

frezes 通过消费记录看，这么大的流量主要是使用守护进程类型的容器，会不会是监控的设备问题

但是之前没有出现这种问题，而且今天node-exporter其中一个节点也出现了流量降低的情况

确实没其他思路了

SeesawLiu · 2023年8月18日

还有种可能是集群中有大量的警告，导致监控的流量变大

frezes · 2023年8月18日

[未知用户]

这里你是说到是 Daemonset ，其实它们的网络都是 HostNetwork 模式, 对于 Pod 网络监控我们使用如下表达式进行计算：

sum by(namespace,pod)(rate(container_network_receive_bytes_total{interface!~"^(cali.+|tunl.+|dummy.+|kube.+|flannel.+|cni.+|docker.+|veth.+|lo.*)"}[5m]))

而我们再去看 hostnetwork 模式的 Pod，以 calico-node 为例，他没有容器网卡，直接使用的是主机网络，过滤完 interface 后还会存在如主机网卡等，这里网络监控无法精确统计。

frezes · 2023年8月18日

frezes · 2023年8月18日

SeesawLiu · 2023年8月28日

我检查了日志系统，发现openldap的日志量非常高，每天达到1990万，关闭他的日志，把日志降下来缓解了这个问题。应该是openldap的日志到elastic的流量和elastic节点之间的副本调整带来的网络流量

moxiaokai · 2024年8月9日

SeesawLiu 我们这边也有一个集群类似问题，也是关闭集群自带的ES解决掉。

Prometheus 网络流量异常

inksnw

frezesK零S

frezesK零S

SeesawLiuK零S

SeesawLiuK零S

SeesawLiuK零S

SeesawLiuK零S

frezesK零S

frezesK零S

frezesK零S

SeesawLiuK零S

moxiaokai