试着8点的时候查看一下pod状态吧, 要么是这个时间node_exporter数据出不来,或者没有, 要么这个时间prometheus工作不正常没有拉数据
Prometheus 网络流量异常
frezesK零S
- 已编辑
frezesK零S
- 已编辑
监控是正常的,可以直接通过 Prometheus Console 查询确认下问题:
首先查询节点网络指标的表达式如下:
sum by (node, host_ip, role, cluster) (irate(node_network_transmit_bytes_total{device!~"veth.+",job="node-exporter"}[5m]) * on (namespace, pod, cluster) group_left (node, host_ip, role) node_namespace_pod:kube_pod_info:)
这个指标没有排除本地网卡或虚拟设备,如 eth* 、calico、docker ,所有设备的流量都会累加求和,会看到用量很高;但为什么突然又从波峰降到谷底,这个需要具体看下,可以把 device 加入到 sum by(node, host_ip, role, cluster,device) 中看网络设备具体监控信息
SeesawLiuK零S
还有种可能是集群中有大量的警告,导致监控的流量变大
frezesK零S
[未知用户]
这里你是说到是 Daemonset ,其实它们的网络都是 HostNetwork 模式, 对于 Pod 网络监控我们使用如下表达式进行计算:
sum by(namespace,pod)(rate(container_network_receive_bytes_total{interface!~"^(cali.+|tunl.+|dummy.+|kube.+|flannel.+|cni.+|docker.+|veth.+|lo.*)"}[5m]))
而我们再去看 hostnetwork 模式的 Pod,以 calico-node 为例,他没有容器网卡,直接使用的是主机网络,过滤完 interface 后还会存在如主机网卡等,这里网络监控无法精确统计。
frezesK零S
- 已编辑
frezesK零S
- 已编辑
10 天 后
SeesawLiuK零S
- 已编辑
我检查了日志系统,发现openldap的日志量非常高,每天达到1990万,关闭他的日志,把日志降下来缓解了这个问题。应该是openldap的日志到elastic的流量和elastic节点之间的副本调整带来的网络流量