Cauchy

查系统日志(命令:journalctl -xe |grep etcd)

状态(命令:systemctl status etcd)还有防火墙(命令:systemctl status firewalld)

我实在找不到问题了,求老哥帮帮我!如果需要,我能提供远程。

    lxj
    云主机么?是不是挂了安全组

    • lxj 回复了此帖

      Cauchy

      老哥我补充一下,

      我执行 创建集群命令:./kk create cluster -f config-sample.yaml -a kubesphere.tar.gz –with-packages时,

      使用默认生成的etcd.env,etcd起不来,报错:2379端口被占用。报错如下:

      文件:etcd.env 在这个位置

      Cauchy

      可能是把,我也有点搞不清。这个服务器是在一个局域网内,然后,进行端口映射 到我能访问到的网络里,如果像访问端口,得需要找人开端口,不过我已经 把这个2379和2380端口开完了。

        lxj
        这个192.168.17.75 不是机器网卡上的地址吧,eip ?要用机器网卡上的地址哦

        • lxj 回复了此帖

          Cauchy

          对,不是机器网卡的地址。机器网卡地址是10.10.1.183

          但是,我别的节点服务器 访问不到机器网卡地址10.10.1.183。

          Cauchy

          我是不是 要把 config-sample.yaml 中的 master 改成 机器网卡地址呢

            lxj

            如果是在一个节点上执行,这两个机器都填网卡 ip,且这两机器要网络互通。
            如果执行安装的节点ssh不到这两机器的网卡ip,address 可以填 eip 用来ssh,internalAddress 一定要填机器网卡ip

            • lxj 回复了此帖

              Cauchy

              大佬,我把ip改为机器网卡的地址,好像是 etcd检查过了,但是又遇到了新的问题。

              说我10250被占用了。。。

                lxj
                先卸载了 ./kk delete cluster -f xxx.yaml, 然后netstat -nplt检查下有没有这个10250,没有的话重装一下试试看

                • lxj 回复了此帖

                  Cauchy

                  我卸载后重装了。不报错,端口占用了

                  ①但报错还是与前边 是相似的报错

                  ②貌似是有镜像拉取失败的情况,但是没有说明是哪个镜像拉取失败了

                  ③好像是在 加载node节点的时候,有问题

                  • lxj 回复了此帖

                    lxj 这是加入集群的时候报错了吗

                    Cauchy

                    大佬,我今天咨询了一下同事,这台服务器确实配了安全组。

                    配置了安全组后,使用昨天你说的方法,改为本机ip能解决问题或减少影响吗?
                    不过,昨天改为本机ip后,确实,etcd那部分,是 没报错了

                    Cauchy

                    蓝色框里的地址是 本机网卡地址(10.10.1.183),但是我node节点ping不到本机网卡地址,只能ping到映射网址(192.168.17.75);
                    现在我的hosts配置中, lb.kubesphere.local是10.10.1.183。

                    所以node节点,访问 https://lb.kubesphere.local:6443 时,访问不到 就报超时的错了。

                    图1时hosts配置内容:

                    图2,是报错地方(蓝色框):

                    解决问题思路:

                    ①让 lb.kubesphere.local 改为 192.168.17.75 ,让 node节点能访问到 https://lb.kubesphere.local:6443 ,也许可以解决问题。

                    ②如何让lb.kubesphere.local 改为 192.168.17.75 :

                    在config-sample.yaml中,将 address 改为 192.168.17.75

                      lxj
                      可以尝试把 controlPlaneEndpoint.address 设置成这个eip

                      • lxj 回复了此帖

                        lxj
                        上边hosts里都填网卡地址就行

                        • lxj 回复了此帖

                          Cauchy

                          大佬我又来了。。

                          卡在这个界面,好几个小时了。帮我看看是啥问题吧。

                          我发现kubectl已经安装了。

                          执行命令:kubectl get po -A ,好多pod没跑起来

                          然后我选了几个配pod,执行命令:kubectl describe po ks-installer-5d7849b4d8-9qqd9 -n kubesphere-system

                          ① ks-installer-xxxxxxx:

                          ②calico-kube-controllers-xxxxx:

                          ③calico-node-xxxx :

                          我检查了一下这几个镜像,我在harbor里都有呢。

                          Cauchy

                          大佬,这句告警的意思是说:我的两个node pod 没起来,导致这个pod 也起不来

                          node pod 有污点?

                          Cauchy

                          大佬, I need your help!

                          我的这个 pod :kube-proxy 一直在报错

                          unable to start container process: exec: “/usr/local/bin/kube-proxy”: stat /usr/local/bin/kube-proxy: no such file or directory: unknown