huanggze 进入出错 prometheus pod 里,发现每个data block 文件里都有大量 .tmp 文件。分析可能是 prometheus 自身 bug 引起:https://github.com/prometheus/prometheus/issues/5725 因为数据corrupt了,所以不好保留数据的情况下恢复,只能删除pvc 解决办法是把有问题的 prometheus scale 到 0 ,delete删除掉(连同 pvc)。然后scale恢复到原来的副本数。