Cauchy

可能是把,我也有点搞不清。这个服务器是在一个局域网内,然后,进行端口映射 到我能访问到的网络里,如果像访问端口,得需要找人开端口,不过我已经 把这个2379和2380端口开完了。

    lxj
    这个192.168.17.75 不是机器网卡上的地址吧,eip ?要用机器网卡上的地址哦

    • lxj 回复了此帖

      Cauchy

      对,不是机器网卡的地址。机器网卡地址是10.10.1.183

      但是,我别的节点服务器 访问不到机器网卡地址10.10.1.183。

      Cauchy

      我是不是 要把 config-sample.yaml 中的 master 改成 机器网卡地址呢

        lxj

        如果是在一个节点上执行,这两个机器都填网卡 ip,且这两机器要网络互通。
        如果执行安装的节点ssh不到这两机器的网卡ip,address 可以填 eip 用来ssh,internalAddress 一定要填机器网卡ip

        • lxj 回复了此帖

          Cauchy

          大佬,我把ip改为机器网卡的地址,好像是 etcd检查过了,但是又遇到了新的问题。

          说我10250被占用了。。。

            lxj
            先卸载了 ./kk delete cluster -f xxx.yaml, 然后netstat -nplt检查下有没有这个10250,没有的话重装一下试试看

            • lxj 回复了此帖

              Cauchy

              我卸载后重装了。不报错,端口占用了

              ①但报错还是与前边 是相似的报错

              ②貌似是有镜像拉取失败的情况,但是没有说明是哪个镜像拉取失败了

              ③好像是在 加载node节点的时候,有问题

              • lxj 回复了此帖

                lxj 这是加入集群的时候报错了吗

                Cauchy

                大佬,我今天咨询了一下同事,这台服务器确实配了安全组。

                配置了安全组后,使用昨天你说的方法,改为本机ip能解决问题或减少影响吗?
                不过,昨天改为本机ip后,确实,etcd那部分,是 没报错了

                Cauchy

                蓝色框里的地址是 本机网卡地址(10.10.1.183),但是我node节点ping不到本机网卡地址,只能ping到映射网址(192.168.17.75);
                现在我的hosts配置中, lb.kubesphere.local是10.10.1.183。

                所以node节点,访问 https://lb.kubesphere.local:6443 时,访问不到 就报超时的错了。

                图1时hosts配置内容:

                图2,是报错地方(蓝色框):

                解决问题思路:

                ①让 lb.kubesphere.local 改为 192.168.17.75 ,让 node节点能访问到 https://lb.kubesphere.local:6443 ,也许可以解决问题。

                ②如何让lb.kubesphere.local 改为 192.168.17.75 :

                在config-sample.yaml中,将 address 改为 192.168.17.75

                  lxj
                  可以尝试把 controlPlaneEndpoint.address 设置成这个eip

                  • lxj 回复了此帖

                    lxj
                    上边hosts里都填网卡地址就行

                    • lxj 回复了此帖

                      Cauchy

                      大佬我又来了。。

                      卡在这个界面,好几个小时了。帮我看看是啥问题吧。

                      我发现kubectl已经安装了。

                      执行命令:kubectl get po -A ,好多pod没跑起来

                      然后我选了几个配pod,执行命令:kubectl describe po ks-installer-5d7849b4d8-9qqd9 -n kubesphere-system

                      ① ks-installer-xxxxxxx:

                      ②calico-kube-controllers-xxxxx:

                      ③calico-node-xxxx :

                      我检查了一下这几个镜像,我在harbor里都有呢。

                      Cauchy

                      大佬,这句告警的意思是说:我的两个node pod 没起来,导致这个pod 也起不来

                      node pod 有污点?

                      Cauchy

                      大佬, I need your help!

                      我的这个 pod :kube-proxy 一直在报错

                      unable to start container process: exec: “/usr/local/bin/kube-proxy”: stat /usr/local/bin/kube-proxy: no such file or directory: unknown

                        lxj
                        有没有可能是这个 kube-proxy 的镜像搞错了呢?重传一下吧
                        registry.cn-beijing.aliyuncs.com/kubesphereio/kube-proxy:v1.23.15

                        • lxj 回复了此帖

                          Cauchy

                          老哥,我重新传了一下镜像,并且从github上 下了一个新的kube-proxy 放到了/usr/local/bin/中。也不知道是哪个的原因,反正解决了。

                          但是出了新的问题:

                          就剩一个pod岂不是Running状态了,如下图:

                          对于这个pod calico-node 执行命令 kubectl describe po calico-node-g4jzm -n kube-system 。结果如下图:

                          我也重新下载、上传了cni的镜像

                          对cni进行日志查看,执行命令:docker logs k8s_install-cni_calico-node-7pns2_kube-system_deacc0b0-3492-4ef1-a9d8-9161f491e954,结果如下:

                          节点:master

                          节点:node1