KubeSphere 版本 : v3.3.2
prom/prometheus:v2.34.0
问题描述:使用一段时间后,经常发现有节点卡死失去响应,导致节点失联。一旦发生这个情况,很快其它节点接着依次出现卡死失联。在找了相关的资料后终于定位到了是 负载 prometheus-k8s 的问题,尝试限制过 它的 资源使用也还是偶而出现问题,最终停止这个负载,问题不再出现了。
附相关资料:
间歇性 每隔一会就把所有节点打垮,节点变得未就绪,使其完全卡死,只能在阿里控制台强制重启才能恢复。
https://blog.csdn.net/u012922005/article/details/127167188
https://blog.csdn.net/lyf0327/article/details/105868234
prometheus TSDB写错误,所以重启会疯狂攫取CPU内存资源,最后也无法读取TSDB数据,最终把节点系统资源耗尽,影响别的服务。