Prometheus 网络流量异常

SeesawLiu

创建部署问题时，请参考下面模板，你提供的信息越多，越容易及时获得解答。如果未按模板创建问题，管理员有权关闭问题。
确保帖子格式清晰易读，用 markdown code block 语法格式化代码块。
你只花一分钟创建的问题，不能指望别人花上半个小时给你解答。

操作系统信息
例如：虚拟机/物理机，Centos7.5/Ubuntu18.04，4C/8G

Kubernetes版本信息
将 kubectl version 命令执行结果贴在下方

容器运行时
将 docker version / crictl version / nerdctl version 结果贴在下方

KubeSphere版本信息
v3.3.2。离线安装。使用kk安装。work节点与master之间使用了haproxy

问题是什么
网络流量从早上8点开始逐渐增加，到第二天早上8点突然降低。查看一个节点的流量主要是下面的几个pod流量,估计是Prometheus的流量异常，请问如何排查此种问题，以前的流量是正常的

node exporter的流量如下

inksnw

每天稳定复现么, 可以查看一下Prometheus 的运行日志看下有没有异常,8点突然降低是指 node exporter的出站流量么

SeesawLiu

[未知用户] 8点突然降低的是入站流量，每天都是这样的
Prometheus看起来运行正常的，有一些异常，但感觉和这个流量无关

每天也能正常监控集群的情况，查看node-exporter的，有一些日志，但时间对不上

SeesawLiu

发现一个类似的帖子 https://ask.kubesphere.io/forum/d/9622-node-exporter3500mbps1

inksnw

试着8点的时候查看一下pod状态吧, 要么是这个时间node_exporter数据出不来,或者没有, 要么这个时间prometheus工作不正常没有拉数据

frezes

SeesawLiu

frezes 通过消费记录看，这么大的流量主要是使用守护进程类型的容器，会不会是监控的设备问题

但是之前没有出现这种问题，而且今天node-exporter其中一个节点也出现了流量降低的情况

确实没其他思路了

frezes

@SeesawLiu

监控是正常的，可以直接通过 Prometheus Console 查询确认下问题：
首先查询节点网络指标的表达式如下：

sum by (node, host_ip, role, cluster) (irate(node_network_transmit_bytes_total{device!~"veth.+",job="node-exporter"}[5m]) * on (namespace, pod, cluster) group_left (node, host_ip, role) node_namespace_pod:kube_pod_info:)

这个指标没有排除本地网卡或虚拟设备，如 eth* 、calico、docker ，所有设备的流量都会累加求和，会看到用量很高；但为什么突然又从波峰降到谷底，这个需要具体看下，可以把 device 加入到 sum by(node, host_ip, role, cluster,device) 中看网络设备具体监控信息

SeesawLiu

frezes 通过prometheus找到一些网络设备流量确实很大，现在我还没找到相关的pod

但我通过cpu的使用分析，怀疑是和数据库相关，比如elasticsearch 8点左右数据表会跨天

SeesawLiu

而且我观测到ha-proxy的流量也比较异常,我是按照安装文档配置的，在worker节点使用haproxy代理master的apiserver，按道理只会代理apiserver的6443端口，流量较小，但实际看到流量比较大

SeesawLiu

还有种可能是集群中有大量的警告，导致监控的流量变大

frezes

[未知用户]

这里你是说到是 Daemonset ，其实它们的网络都是 HostNetwork 模式, 对于 Pod 网络监控我们使用如下表达式进行计算：

sum by(namespace,pod)(rate(container_network_receive_bytes_total{interface!~"^(cali.+|tunl.+|dummy.+|kube.+|flannel.+|cni.+|docker.+|veth.+|lo.*)"}[5m]))

而我们再去看 hostnetwork 模式的 Pod，以 calico-node 为例，他没有容器网卡，直接使用的是主机网络，过滤完 interface 后还会存在如主机网卡等，这里网络监控无法精确统计。

frezes

SeesawLiu

我检查了日志系统，发现openldap的日志量非常高，每天达到1990万，关闭他的日志，把日志降下来缓解了这个问题。应该是openldap的日志到elastic的流量和elastic节点之间的副本调整带来的网络流量

moxiaokai

SeesawLiu 我们这边也有一个集群类似问题，也是关闭集群自带的ES解决掉。