kubesphere 卡在 etcd

Llxj · 2024年3月27日

Cauchy

可能是把，我也有点搞不清。这个服务器是在一个局域网内，然后，进行端口映射到我能访问到的网络里，如果像访问端口，得需要找人开端口，不过我已经把这个2379和2380端口开完了。

Cauchy · 2024年3月27日

lxj
这个192.168.17.75 不是机器网卡上的地址吧，eip ？要用机器网卡上的地址哦

Llxj · 2024年3月27日

Cauchy

对，不是机器网卡的地址。机器网卡地址是10.10.1.183

但是，我别的节点服务器访问不到机器网卡地址10.10.1.183。

Llxj · 2024年3月27日

Cauchy

我是不是要把 config-sample.yaml 中的 master 改成机器网卡地址呢

Cauchy · 2024年3月27日

lxj

如果是在一个节点上执行，这两个机器都填网卡 ip，且这两机器要网络互通。
如果执行安装的节点ssh不到这两机器的网卡ip，address 可以填 eip 用来ssh，internalAddress 一定要填机器网卡ip

Llxj · 2024年3月27日

Cauchy

大佬，我把ip改为机器网卡的地址，好像是 etcd检查过了，但是又遇到了新的问题。

说我10250被占用了。。。

Cauchy · 2024年3月27日

lxj
先卸载了 ./kk delete cluster -f xxx.yaml, 然后netstat -nplt检查下有没有这个10250，没有的话重装一下试试看

Llxj · 2024年3月27日

Cauchy

我卸载后重装了。不报错，端口占用了

①但报错还是与前边是相似的报错

②貌似是有镜像拉取失败的情况，但是没有说明是哪个镜像拉取失败了

③好像是在加载node节点的时候，有问题

Llxj · 2024年3月27日

lxj 这是加入集群的时候报错了吗

Llxj · 2024年3月28日

Cauchy

大佬，我今天咨询了一下同事，这台服务器确实配了安全组。

配置了安全组后，使用昨天你说的方法，改为本机ip能解决问题或减少影响吗？
不过，昨天改为本机ip后，确实，etcd那部分，是没报错了

Llxj · 2024年3月28日

Cauchy

蓝色框里的地址是本机网卡地址（10.10.1.183），但是我node节点ping不到本机网卡地址，只能ping到映射网址（192.168.17.75）；
现在我的hosts配置中， lb.kubesphere.local是10.10.1.183。

所以node节点，访问 https://lb.kubesphere.local:6443 时，访问不到就报超时的错了。

图1时hosts配置内容：

图2，是报错地方（蓝色框）：

解决问题思路：

①让 lb.kubesphere.local 改为 192.168.17.75 ，让 node节点能访问到 https://lb.kubesphere.local:6443 ，也许可以解决问题。

②如何让lb.kubesphere.local 改为 192.168.17.75 ：

在config-sample.yaml中，将 address 改为 192.168.17.75

Cauchy · 2024年3月28日

lxj
可以尝试把 controlPlaneEndpoint.address 设置成这个eip

Llxj · 2024年3月28日

Cauchy

大佬，这样改对吗

Cauchy · 2024年3月28日

lxj
上边hosts里都填网卡地址就行

Llxj · 2024年3月28日

Cauchy

大佬我又来了。。

卡在这个界面，好几个小时了。帮我看看是啥问题吧。

我发现kubectl已经安装了。

执行命令：kubectl get po -A ，好多pod没跑起来

然后我选了几个配pod，执行命令：kubectl describe po ks-installer-5d7849b4d8-9qqd9 -n kubesphere-system

① ks-installer-xxxxxxx：

②calico-kube-controllers-xxxxx：

③calico-node-xxxx :

我检查了一下这几个镜像，我在harbor里都有呢。

Llxj · 2024年3月28日

Cauchy

大佬，这句告警的意思是说：我的两个node pod 没起来，导致这个pod 也起不来

node pod 有污点？

Llxj · 2024年3月29日

Cauchy

大佬， I need your help!

我的这个 pod ：kube-proxy 一直在报错

unable to start container process: exec: “/usr/local/bin/kube-proxy”: stat /usr/local/bin/kube-proxy: no such file or directory: unknown

Cauchy · 2024年3月29日

lxj
有没有可能是这个 kube-proxy 的镜像搞错了呢？重传一下吧
registry.cn-beijing.aliyuncs.com/kubesphereio/kube-proxy:v1.23.15

Llxj · 2024年3月29日

Cauchy

老哥，我重新传了一下镜像，并且从github上下了一个新的kube-proxy 放到了/usr/local/bin/中。也不知道是哪个的原因，反正解决了。

但是出了新的问题：

就剩一个pod岂不是Running状态了，如下图：

对于这个pod calico-node 执行命令 kubectl describe po calico-node-g4jzm -n kube-system 。结果如下图：

我也重新下载、上传了cni的镜像

对cni进行日志查看，执行命令：docker logs k8s_install-cni_calico-node-7pns2_kube-system_deacc0b0-3492-4ef1-a9d8-9161f491e954，结果如下：

节点：master

节点：node1

Llxj · 2024年3月29日

Cauchy

kubesphere 卡在 etcd

Llxj

CauchyK零SK壹S

Llxj

Llxj

CauchyK零SK壹S

Llxj

CauchyK零SK壹S

Llxj

Llxj

Llxj

Llxj

CauchyK零SK壹S

Llxj

CauchyK零SK壹S

Llxj

Llxj

Llxj

CauchyK零SK壹S

Llxj

Llxj