lxj
这个192.168.17.75 不是机器网卡上的地址吧,eip ?要用机器网卡上的地址哦

  • lxj 回复了此帖

    Cauchy

    对,不是机器网卡的地址。机器网卡地址是10.10.1.183

    但是,我别的节点服务器 访问不到机器网卡地址10.10.1.183。

    Cauchy

    我是不是 要把 config-sample.yaml 中的 master 改成 机器网卡地址呢

      lxj

      如果是在一个节点上执行,这两个机器都填网卡 ip,且这两机器要网络互通。
      如果执行安装的节点ssh不到这两机器的网卡ip,address 可以填 eip 用来ssh,internalAddress 一定要填机器网卡ip

      • lxj 回复了此帖

        Cauchy

        大佬,我把ip改为机器网卡的地址,好像是 etcd检查过了,但是又遇到了新的问题。

        说我10250被占用了。。。

          lxj
          先卸载了 ./kk delete cluster -f xxx.yaml, 然后netstat -nplt检查下有没有这个10250,没有的话重装一下试试看

          • lxj 回复了此帖

            Cauchy

            我卸载后重装了。不报错,端口占用了

            ①但报错还是与前边 是相似的报错

            ②貌似是有镜像拉取失败的情况,但是没有说明是哪个镜像拉取失败了

            ③好像是在 加载node节点的时候,有问题

            • lxj 回复了此帖

              lxj 这是加入集群的时候报错了吗

              Cauchy

              大佬,我今天咨询了一下同事,这台服务器确实配了安全组。

              配置了安全组后,使用昨天你说的方法,改为本机ip能解决问题或减少影响吗?
              不过,昨天改为本机ip后,确实,etcd那部分,是 没报错了

              Cauchy

              蓝色框里的地址是 本机网卡地址(10.10.1.183),但是我node节点ping不到本机网卡地址,只能ping到映射网址(192.168.17.75);
              现在我的hosts配置中, lb.kubesphere.local是10.10.1.183。

              所以node节点,访问 https://lb.kubesphere.local:6443 时,访问不到 就报超时的错了。

              图1时hosts配置内容:

              图2,是报错地方(蓝色框):

              解决问题思路:

              ①让 lb.kubesphere.local 改为 192.168.17.75 ,让 node节点能访问到 https://lb.kubesphere.local:6443 ,也许可以解决问题。

              ②如何让lb.kubesphere.local 改为 192.168.17.75 :

              在config-sample.yaml中,将 address 改为 192.168.17.75

                lxj
                可以尝试把 controlPlaneEndpoint.address 设置成这个eip

                • lxj 回复了此帖

                  lxj
                  上边hosts里都填网卡地址就行

                  • lxj 回复了此帖

                    Cauchy

                    大佬我又来了。。

                    卡在这个界面,好几个小时了。帮我看看是啥问题吧。

                    我发现kubectl已经安装了。

                    执行命令:kubectl get po -A ,好多pod没跑起来

                    然后我选了几个配pod,执行命令:kubectl describe po ks-installer-5d7849b4d8-9qqd9 -n kubesphere-system

                    ① ks-installer-xxxxxxx:

                    ②calico-kube-controllers-xxxxx:

                    ③calico-node-xxxx :

                    我检查了一下这几个镜像,我在harbor里都有呢。

                    Cauchy

                    大佬,这句告警的意思是说:我的两个node pod 没起来,导致这个pod 也起不来

                    node pod 有污点?

                    Cauchy

                    大佬, I need your help!

                    我的这个 pod :kube-proxy 一直在报错

                    unable to start container process: exec: “/usr/local/bin/kube-proxy”: stat /usr/local/bin/kube-proxy: no such file or directory: unknown

                      lxj
                      有没有可能是这个 kube-proxy 的镜像搞错了呢?重传一下吧
                      registry.cn-beijing.aliyuncs.com/kubesphereio/kube-proxy:v1.23.15

                      • lxj 回复了此帖

                        Cauchy

                        老哥,我重新传了一下镜像,并且从github上 下了一个新的kube-proxy 放到了/usr/local/bin/中。也不知道是哪个的原因,反正解决了。

                        但是出了新的问题:

                        就剩一个pod岂不是Running状态了,如下图:

                        对于这个pod calico-node 执行命令 kubectl describe po calico-node-g4jzm -n kube-system 。结果如下图:

                        我也重新下载、上传了cni的镜像

                        对cni进行日志查看,执行命令:docker logs k8s_install-cni_calico-node-7pns2_kube-system_deacc0b0-3492-4ef1-a9d8-9161f491e954,结果如下:

                        节点:master

                        节点:node1

                        lxj
                        192.168这个不是网卡地址,还是建议让这两个节点的网卡地址可以互通

                        • lxj 回复了此帖