创建部署问题时,请参考下面模板,你提供的信息越多,越容易及时获得解答。如果未按模板创建问题,管理员有权关闭问题。
确保帖子格式清晰易读,用 markdown code block 语法格式化代码块。
你只花一分钟创建的问题,不能指望别人花上半个小时给你解答。

操作系统信息
例如:虚拟机/物理机,Centos7.5/Ubuntu18.04,4C/8G

Kubernetes版本信息
kubectl version 命令执行结果贴在下方

容器运行时
docker version / crictl version / nerdctl version 结果贴在下方

KubeSphere版本信息
v3.3.2。离线安装。使用kk安装。work节点与master之间使用了haproxy

问题是什么
网络流量从早上8点开始逐渐增加,到第二天早上8点突然降低。查看一个节点的流量主要是下面的几个pod流量,估计是Prometheus的流量异常,请问如何排查此种问题,以前的流量是正常的



node exporter的流量如下

SeesawLiu 更改标题为「Prometheus 网络流量异常

每天稳定复现么, 可以查看一下Prometheus 的运行日志看下有没有异常,8点突然降低是指 node exporter的出站流量么

[未知用户] 8点突然降低的是入站流量,每天都是这样的
Prometheus看起来运行正常的,有一些异常,但感觉和这个流量无关

每天也能正常监控集群的情况,查看node-exporter的,有一些日志,但时间对不上

试着8点的时候查看一下pod状态吧, 要么是这个时间node_exporter数据出不来,或者没有, 要么这个时间prometheus工作不正常没有拉数据

@SeesawLiu

监控是正常的,可以直接通过 Prometheus Console 查询确认下问题:
首先查询节点网络指标的表达式如下:

sum by (node, host_ip, role, cluster) (irate(node_network_transmit_bytes_total{device!~"veth.+",job="node-exporter"}[5m]) * on (namespace, pod, cluster) group_left (node, host_ip, role) node_namespace_pod:kube_pod_info:)

这个指标没有排除本地网卡或虚拟设备,如 eth* 、calico、docker ,所有设备的流量都会累加求和,会看到用量很高;但为什么突然又从波峰降到谷底,这个需要具体看下,可以把 device 加入到 sum by(node, host_ip, role, cluster,device) 中看网络设备具体监控信息

    frezes 通过prometheus找到一些网络设备流量确实很大,现在我还没找到相关的pod

    但我通过cpu的使用分析,怀疑是和数据库相关,比如elasticsearch 8点左右数据表会跨天

    而且我观测到ha-proxy的流量也比较异常,我是按照安装文档配置的,在worker节点使用haproxy代理master的apiserver,按道理只会代理apiserver的6443端口,流量较小,但实际看到流量比较大

    frezes 通过消费记录看,这么大的流量主要是使用守护进程类型的容器,会不会是监控的设备问题

    但是之前没有出现这种问题,而且今天node-exporter其中一个节点也出现了流量降低的情况

    确实没其他思路了

    还有种可能是集群中有大量的警告,导致监控的流量变大

    [未知用户]

    这里你是说到是 Daemonset ,其实它们的网络都是 HostNetwork 模式, 对于 Pod 网络监控我们使用如下表达式进行计算:

    sum by(namespace,pod)(rate(container_network_receive_bytes_total{interface!~"^(cali.+|tunl.+|dummy.+|kube.+|flannel.+|cni.+|docker.+|veth.+|lo.*)"}[5m]))

    而我们再去看 hostnetwork 模式的 Pod,以 calico-node 为例,他没有容器网卡,直接使用的是主机网络,过滤完 interface 后还会存在如主机网卡等,这里网络监控无法精确统计。

    10 天 后

    我检查了日志系统,发现openldap的日志量非常高,每天达到1990万,关闭他的日志,把日志降下来缓解了这个问题。应该是openldap的日志到elastic的流量和elastic节点之间的副本调整带来的网络流量

      1 年 后

      SeesawLiu 我们这边也有一个集群类似问题,也是关闭集群自带的ES解决掉。