elasticserch-logging-curator POD 状态 Error 排错

huanggze

问题：kubectl get po -n kubesphere-logging-system 容器组状态显示 Error

分析：Curator 是定时清理 es index 的 CronJob 组件。一般 Curator出错都和 es 集群状态异常有关（kubesphere 日志服务也会受到影响）。先查看 curator 的日志：

kubectl logs -n kubesphere-logging-system <YOUR_CURATOR_POD>

这里看到提示 elasticsearch connection 错误：

进入 es pod 查看集群状态：
kubectl exec -it -n kubesphere-logging-system elasticsearch-logging-data-0 /bin/sh

检查集群健康：

# index status
curl localhost:9200/_cat/indices?v

# cluster health
curl localhost:9200/_cluster/health?pretty

# shard status
curl localhost:9200/_cat/shards?v

发现无法获取 index 信息，集群状态是 yellow，且存在大量 unassigned shards：

这说明分片数量大于节点数量。此时需要扩容 es 数据节点，使节点数量大于等于分片数 + 1：
kubectl scale -n kubesphere-logging-system sts elasticsearch-logging-data --replicas=<N+1>

另外，要检查 es cluster 的 setting，我的有问题的环境还发现，分片规则里错误地排除了 elasticsearch-logging-data-0

curl localhost:9200/_cluster/settings

curl -XPUT 'localhost:9200/_cluster/settings' -d '{"transient":{"cluster.routing.allocation.enable":"all","cluster.routing.allocation.exclude._name":""}}'

LLLDDD

huanggze 这分片数怎么看？

LLLDDD

您好,如果想日志保存的久一点,是不是修改Curator 的时间就行了呀

修改SCHEDULE就行了吧？

huanggze

LLLDDD

如果想日志保存的久一点,是不是修改Curator 的时间就行了呀

是的

这分片数怎么看？

curl localhost:9200/_cat/shards?v

LLLDDD

elasticserch-logging-curator Pod 状态Error，但是不是elasticsearch connection 错误,这种需要怎么解决呢

LLLDDD

LLLDDD
es集群状态

es集群健康

分片状态

我这种情况也是要扩容es数据节点,使节点数量大于等于分片数+1吗

huanggze

LLLDDD 是的，分片的问题。curator 报错说 no such index，没有找到要删除的 index。es 集群 red 几天了把。

LLLDDD

huanggze 我昨天刚开的日志组件呀没有好几天

LLLDDD

huanggze 那我现在这么处理呢扩容吗？还有就是我截图中 shard最大是4 是不是意味着我的分片数是4？

huanggze

LLLDDD index name 不是按收集的时间，而是日志本身的时间戳来建立的。

shard 数是 5 啊。4 只是编号，第一个是编号 0。你需要补一下 es 运维的知识啊 😃

huanggze

LLLDDD 扩容 go ahead

LLLDDD

huanggze 我不是搞这块的领导让我把kubesphere熟悉下后续可能要用kubesphere

huanggze

LLLDDD 奥。没事，有问题就提到这里，轮班的同事看到了会回复

LLLDDD

huanggze 好的谢谢了

LLLDDD

昨天我把es扩容到了分片数+1
然后今天依旧有大量UNASSIGNED
有些正在INITIALIZING,但是特别慢
看了下索引状态

也有一部分处于red和yellow的
然后curator执行依旧是error
提示

我进入容器内执行 curl localhost:9200/_cat/indices?v 这类的命令要等待很久时间,

huanggze

LLLDDD

另外，要检查 es cluster 的 setting，我的有问题的环境还发现，分片规则里错误地排除了 elasticsearch-logging-data-0
curl localhost:9200/_cluster/settings

看一下你的 setting

LLLDDD

huanggze

LLLDDD

huanggze hello 还在吗

huanggze

LLLDDD 在

得先检查一下是什么 reason 导致 es 状态 red。es 应该要给出 explanation。不然没办法定位问题

# index status
curl localhost:9200/_cat/indices?v

# cluster health
curl localhost:9200/_cluster/health?pretty

# shard status
curl localhost:9200/_cat/shards?v

# node status
curl localhost:9200/_nodes/stats

# disk allocation status
curl localhost:9200/_cat/allocation

LLLDDD

huanggze
index status

cluster health

shard status

disk allocation status

LLLDDD

huanggze node status