• Kubernetes
  • 如何在kubernetes中配置Calico路由反射器

1. 概述

作为Kubernetes最长使用的一种网络插件,Calico具有很强的扩展性,较优的资源利用和较少的依赖,相较于Flannel插件采用Overlay的网络,Calico可以通过三层路由的方式采用性能更佳的Underlay网络,Calico网络插件的转发效率是所有方案中较高的。

在使用Calico网络插件的实际生产环境当中,为了提高网络的性能和灵活性,需要将K8S的工作节点和物理网络中的leaf交换机建立bgp邻居关系,同步bgp路由信息,可以将pod网络的路由发布到物理网络中。Calico给出了三种类型的BGP互联方案,分别是Full-meshRoute reflectorsTop of Rack (ToR)

- Full-mesh

全互联模式,启用了BGP之后,Calico的默认行为是在每个节点彼此对等的情况下创建完整的内部BGP(iBGP)连接,这使Calico可以在任何L2网络(无论是公有云还是私有云)上运行,或者说(如果配了IPIP)可以在任何不禁止IPIP流量的网络上作为overlay运行。对于vxlan overlay,Calico不使用BGP。

Full-mesh模式对于100个以内的工作节点或更少节点的中小规模部署非常有用,但是在较大的规模上,Full-mesh模式效率会降低,较大规模情况下,Calico官方建议使用Route reflectors。

- Route reflectors

如果想构建内部BGP(iBGP)大规模集群,可以使用BGP路由反射器来减少每个节点上使用BGP对等体的数量。在此模型中,某些节点充当路由反射器,并配置为在它们之间建立完整的网格。然后,将其他节点配置为与这些路由反射器的子集(通常为冗余,通常为2个)进行对等,从而与全网格相比减少了BGP对等连接的总数。

- Top of Rack(ToR)

在本地部署中,可以将Calico配置为直接与物理网络基础结构对等。通常,这需要涉及到禁用Calico的默认Full-mesh行为,将所有Calico节点与L3 ToR路由器对等。

本篇文章重点会介绍如何在BGP网络环境下配置Calico路由反射器,本篇主要介绍将K8S工作节点作为路由反射器和物理交换机建立BGP连接。配置环境拓扑如下:

在本次环境中,分别有一台spine交换机和两台leaf交换机来建立EBGP连接。所有leaf交换机都属于一个独立的自治系统,所有leaf交换机下的node都属于一个独立的自治系统。Kubernetes集群节点中每个leaf下由两台工作节点作为CalicoRR(路由反射器),之所以用两台node作为路由反射器是考虑冗余性,所有Calico RR都跟自己上联的leaf交换机建立EBGP连接。Calico RR和自己所属的node之间建立iBGP连接。

2. 安装calicoctl

Calico RR所有配置操作都需要通过calicoctl工具来完成, calicoctl允许从命令创建,读取,更新和删除Calico对象,所以我们首先需要在Kubernetes所有的工作节点上安装calicoctl工具。

采用二进制方式安装calicoctl工具。

登录到主机,打开终端提示符,然后导航到安装二进制文件位置,一般情况下calicoctl安装到 /usr/local/bin/。

使用以下命令下载calicoctl二进制文件,版本号选择自己calico的版本。

$ curl -O -L  https://github.com/projectcalico/calicoctl/releases/download/v3.17.2/calicoctl

将文件设置为可执行文件。

$ chmod +x calicoctl

每次执行calicoctl之前需要设置环境变量。

$ export DATASTORE_TYPE=kubernetes
$ export KUBECONFIG=~/.kube/config

如果不希望每次执行calicoctl之前都需要设置环境变量,可以将环境变量信息写到永久写入到/etc/calico/calicoctl.cfg文件里,calicoctl.cfg配置文件编辑如下:

apiVersion: projectcalico.org/v3
kind: CalicoAPIConfig
metadata:
spec:
  datastoreType: "kubernetes"
  kubeconfig: "/root/.kube/config"

命令使用

[root@node1 ~]# calicoctl -h
Usage:
  calicoctl [options] <command> [<args>...]

    create       Create a resource by filename or stdin.
    replace      Replace a resource by filename or stdin.
    apply        Apply a resource by filename or stdin.  This creates a resource
                 if it does not exist, and replaces a resource if it does exists.
    patch        Patch a pre-exisiting resource in place.
    delete       Delete a resource identified by file, stdin or resource type and
                 name.
    get          Get a resource identified by file, stdin or resource type and
                 name.
    label        Add or update labels of resources.
    convert      Convert config files between different API versions.
    ipam         IP address management.
    node         Calico node management.
    version      Display the version of calicoctl.
    export       Export the Calico datastore objects for migration
    import       Import the Calico datastore objects for migration
    datastore    Calico datastore management.

Options:
  -h --help               Show this screen.
  -l --log-level=<level>  Set the log level (one of panic, fatal, error,
                          warn, info, debug) [default: panic]

Description:
  The calicoctl command line tool is used to manage Calico network and security
  policy, to view and manage endpoint configuration, and to manage a Calico
  node instance.

  See 'calicoctl <command> --help' to read about a specific subcommand.

3. 关闭Full-mesh模式

Calico默认是Full-mesh全互联模式,Calico集群中的的节点之间都会建立连接,进行路由交换。但是随着集群规模的扩大,mesh模式将形成一个巨大服务网格,连接数成倍增加。这时就需要使用 Route Reflector(路由器反射)模式解决这个问题。确定一个或多个Calico节点充当路由反射器,让其他节点从这个RR节点获取路由信息。

关闭node-to-node BGP网络,具体操作步骤如下:

添加default BGP配置,调整nodeToNodeMeshEnabled和asNumber:

[root@node1 calico]# cat bgpconf.yaml 
apiVersion: projectcalico.org/v3
kind: BGPConfiguration
metadata:
  name: default
spec:
  logSeverityScreen: Info
  nodeToNodeMeshEnabled: false 
  asNumber: 64512

直接应用一下,应用之后会马上禁用Full-mesh,

[root@node1 calico]# calicoctl apply -f bgpconf.yaml 
Successfully applied 1 'BGPConfiguration' resource(s)

查看bgp网络配置情况,false为关闭

[root@node1 calico]# calicoctl get bgpconfig
NAME      LOGSEVERITY   MESHENABLED   ASNUMBER   
default   Info          false         64512

4. 修改工作节点的calico配置

通过calicoctl get nodes –output=wide可以获取各节点的ASN号,

[root@node1 calico]# calicoctl get nodes --output=wide
NAME    ASN      IPV4             IPV6   
node1   (64512)   172.20.0.11/24          
node2   (64512)   172.20.0.12/24          
node3   (64512)   172.20.0.13/24          
node4   (64512)   173.20.0.11/24          
node5   (64512)   173.20.0.12/24
node6   (64512)   173.20.0.13/24

可以看到获取的ASN号都是“(64512)”,这是因为如果不给每个节点指定ASN号,默认都是64512。我们可以按照拓扑图配置各个节点的ASN号,不同leaf交换机下的节点,ASN号不一样,每个leaf交换机下的工作节点都是一个独立自治系统。

通过如下命令,获取工作节点的calico配置信息:

$ calicoctl get node node1 -o yaml > node1.yaml

每一个工作节点的calico配置信息都需要获取一下,输出为yaml文件,“node1”为calico节点的名称。

按照如下格式进行修改:

[root@node1 calico]# cat node1.yaml 
apiVersion: projectcalico.org/v3
kind: Node
metadata:
  annotations:
    projectcalico.org/kube-labels: '{"beta.kubernetes.io/arch":"amd64","beta.kubernetes.io/os":"linux","kubernetes.io/arch":"amd64","kubernetes.io/hostname":"node1","kubernetes.io/os":"linux","node-role.kubernetes.io/master":"","node-role.kubernetes.io/worker":"","rr-group":"rr1","rr-id":"rr1"}'
  creationTimestamp: null
  labels:
    beta.kubernetes.io/arch: amd64
    beta.kubernetes.io/os: linux
    kubernetes.io/arch: amd64
    kubernetes.io/hostname: node1
    kubernetes.io/os: linux
    node-role.kubernetes.io/master: ""
    node-role.kubernetes.io/worker: ""
  name: node1
spec:
  bgp:
    asNumber: 64512                           ## asNumber根据自己需要进行修改

    ipv4Address: 172.20.0.11/24
    routeReflectorClusterID: 172.20.0.11      ## routeReflectorClusterID一般改成自己节点的IP地址
  orchRefs:
  - nodeName: node1
    orchestrator: k8s
status:
  podCIDRs:
  - ""
  - 10.233.64.0/24

将所有节点的Calico配置信息全部修改之后,通过calicoctl get nodes -o wide命令获取到的节点信息如下:

[root@node1 calico]# calicoctl get nodes -o wide
NAME    ASN     IPV4             IPV6   
node1   64512   172.20.0.11/24          
node2   64512   172.20.0.12/24          
node3   64512   172.20.0.13/24          
node4   64513   173.20.0.11/24          
node5   64513   173.20.0.12/24          
node6   64513   173.20.0.13/24

上面可以可以看到所有的ASN好都已变为手动指定的,不在是全局默认的。

5. 为node节点进行分组(添加label)

为方便让BGPPeer轻松选择节点,在Kubernetes集群中,我们需要将所有节点通过打label的方式进行分组,这里,我们将label标签分为下面几种:

rr-group 这里定义为节点所属的Calico RR组,主要有rr1和rr2两种,为不同leaf交换机下的Calico RR
rr-id 这里定义为所属Calico RR的ID,节点添加了该标签说明该节点作为了路由反射器,主要有rr1和rr2两种,为不同leaf交换机下的Calico RR

通过以下命令为每个节点添加label,

$ kubectl label nodes node1 rr-group=rr1
$ kubectl label nodes node1 rr-id=rr1

查看最终设置情况,

[root@node1 calico]# kubectl get nodes --show-labels 
NAME         STATUS           ROLES            AGE          VERSION         LABELS
node1   Ready    master,worker   31d   v1.17.9   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node1,kubernetes.io/os=linux,node-role.kubernetes.io/master=,node-role.kubernetes.io/worker=,rr-group=rr1,rr-id=rr1
node2   Ready    master,worker   31d   v1.17.9   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node2,kubernetes.io/os=linux,node-role.kubernetes.io/master=,node-role.kubernetes.io/worker=,rr-group=rr1,rr-id=rr1
node3   Ready    master,worker   31d   v1.17.9   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node3,kubernetes.io/os=linux,node-role.kubernetes.io/master=,node-role.kubernetes.io/worker=,rr-group=rr1
node4   Ready    worker          16d   v1.17.9   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node4,kubernetes.io/os=linux,node-role.kubernetes.io/worker=,rr-group=rr2,rr-id=rr2
node5   Ready    worker          16d   v1.17.9   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node5,kubernetes.io/os=linux,node-role.kubernetes.io/worker=,rr-group=rr2,rr-id=rr2
node6   Ready    worker          16d   v1.17.9   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node5,kubernetes.io/os=linux,node-role.kubernetes.io/worker=,rr-group=rr2,rr-id=rr2 

6. 配置BGPPeer

在配置BGPPeer之前,我们可以先查看一下各个node BGP的节点状态,因为已经禁用了Full-mesh,并且现在还没有配置BGPPeer,所以所有节点里的信息都是空的。

[root@node3 ~]# calicoctl node status
Calico process is running.

IPv4 BGP status
No IPv4 peers found.

IPv6 BGP status
No IPv6 peers found.

根据环境拓扑,node1和node2作为Calico RR,需要和leaf01交换机建立BGP连接;node4和node5作为Calico RR需要和leaf02交换机建立BGP连接;node1、node2和node3需要和RR1建立BGP连接;node4、node5和node6需要和RR2建立BGP连接。按照下面步骤依次配置:

1) RR1和leaf01建立BGP连接

编写配置文件,取名为“rr1-to-leaf1-peer.yaml”,配置文件编辑如下:

[root@node1 calico]# cat rr1-to-leaf1-peer.yaml 
apiVersion: projectcalico.org/v3
kind: BGPPeer
metadata:
  name: rr1-to-leaf1-peer        ## 给BGPPeer取一个名称,方便识别

spec:
  nodeSelector: rr-id == 'rr1'   ## 通过节点选择器添加有rr-id == 'rr1'标签的节点

  peerIP: 172.20.0.254           ##  leaf01交换机的地址
  asNumber: 65009                ##  leaf01交换机的AS号

应用该配置,

[root@node1 calico]# calicoctl apply -f rr1-to-leaf1-peer.yaml 
Successfully applied 1 'BGPPeer' resource(s)

2) RR1和自己所属的节点建立BGP连接

RR1所属的节点主要有node1、node2和node3,也就是打了rr-group=rr1标签的节点,配置文件编写如下:

[root@node1 calico]# cat rr1-to-node-peer.yaml 
apiVersion: projectcalico.org/v3
kind: BGPPeer
metadata:
  name: rr1-to-node-peer              ## 给BGPPeer取一个名称,方便识别

spec:
  nodeSelector: rr-group == 'rr1'     ## 通过节点选择器添加有rr-group == ‘rr1’标签的节点

  peerSelector: rr-id  == 'rr1'       ## 通过peer选择器添加有rr-id == ‘rr1’标签的路由反射器

应用该配置,

[root@node1 calico]# calicoctl apply -f rr1-to-node-peer.yaml 
Successfully applied 1 'BGPPeer' resource(s)

3) 在leaf01交换机上操作,建立leaf01交换机和RR1的BGP连接,交换机配置完成后,可以查看交换机bgp peer的连接状态

[leaf01]show bgp peer ipv4

 BGP local router ID: 2.2.2.2
 Local AS number: 65009
 Total number of peers: 3		  Peers in established state: 3

  * - Dynamically created peer
  Peer                    AS  MsgRcvd  MsgSent OutQ PrefRcv Up/Down  State

  100.0.0.1            65008     1696     1677    0       8 23:52:28 Established
  172.20.0.11          64512     1648     1506    0       4 23:51:50 Established
  172.20.0.12          64512     1647     1659    0       4 23:51:44 Established

上面172.20.0.11和172.20.0.12是node1和node2节点,也就是RR1。状态显示为“Established“说明BGP连结已建立。

4) RR2和leaf02建立BGP连接

编写配置文件,取名为“rr2-to-leaf2-peer.yaml”,配置文件编辑如下:

[root@node1 calico]# cat rr2-to-leaf2-peer.yaml 
apiVersion: projectcalico.org/v3
kind: BGPPeer
metadata:
  name: rr2-to-leaf2-peer        ## 给BGPPeer取一个名称,方便识别

spec:
  nodeSelector: rr-id == 'rr2'   ## 通过节点选择器添加有rr-id == 'rr2'标签的节点
  peerIP: 173.20.0.254           ##  leaf02交换机的地址
  asNumber: 65010                ##  leaf02交换机的AS号

应用该配置,

[root@node1 calico]# calicoctl apply -f rr2-to-leaf2-peer.yaml 
Successfully applied 1 'BGPPeer' resource(s)

5) RR2和自己所属的节点建立BGP连接

RR2所属的节点主要有node4、node5和node6,也就是打了rr-group=rr2标签的节点,配置文件编写如下:

[root@node1 calico]# cat rr2-to-node-peer.yaml 
apiVersion: projectcalico.org/v3
kind: BGPPeer
metadata:
  name: rr2-to-node-peer              ## 给BGPPeer取一个名称,方便识别

spec:
  nodeSelector: rr-group == 'rr2'     ## 通过节点选择器添加有rr-group == ‘rr2’标签的节点
  peerSelector: rr-id  == 'rr2'       ## 通过peer选择器添加有rr-id == ‘rr2’标签的路由反射器

应用该配置,

[root@node1 calico]# calicoctl apply -f rr2-to-node-peer.yaml 
Successfully applied 1 'BGPPeer' resource(s)

6) 在leaf02交换机上操作,建立leaf02交换机和RR2的BGP连接

交换机配置完成后,可以查看交换机bgp peer的连接状态

<leaf02>sys
System View: return to User View with Ctrl+Z.
[leaf02]show bgp peer ipv4

 BGP local router ID: 3.3.3.3
 Local AS number: 65010
 Total number of peers: 3		  Peers in established state: 3

  * - Dynamically created peer
  Peer                    AS  MsgRcvd  MsgSent OutQ PrefRcv Up/Down  State

  100.0.0.5            65008     1561     1686    0      11 24:01:03 Established
  173.20.0.11          64513     1655     1650    0       2 23:59:44 Established
  173.20.0.12          64513     1661     1883    0       2 23:59:56 Established

上面173.20.0.11和173.20.0.12是node4和node5节点,也就是RR2。状态显示为“Established“说明BGP连结已建立。

最后,我们可以通过calicoctl get bgppeer命令来查看所有的BGPPeer配置条目,

[root@node1 calico]# calicoctl get bgppeer
NAME                PEERIP         NODE                ASN     
rr1-to-leaf1-peer   172.20.0.254   rr-id == 'rr1'      65009   
rr1-to-node-peer                   rr-group == 'rr1'   0       
rr2-to-leaf2-peer   173.20.0.254   rr-id == 'rr2'      65010   
rr2-to-node-peer                   rr-group == 'rr2'   0

如果想删除某个BGPPeer条目,可以通过下面的命令

$ calicoctl delete bgppeer rr2-to-node-peer

7. 工作节点配置验证

至此,BGPPeer配置已完成,可以在各个节点里再次查看BGPPeer状态信息

在node1节点操作

[root@node1 calico]# calicoctl node status
Calico process is running.

IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS |   PEER TYPE   | STATE |   SINCE    |    INFO     |
+--------------+---------------+-------+------------+-------------+
| 172.20.0.12  | node specific | up    | 2021-02-16 | Established |
| 172.20.0.13  | node specific | up    | 2021-02-16 | Established |
| 172.20.0.254 | node specific | up    | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+

IPv6 BGP status
No IPv6 peers found.

可以看到该节点已经和leaf01交换机、node2和node3节点建立了BGP连接。

在node2节点操作

[root@node2 ~]# calicoctl node status
Calico process is running.

IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS |   PEER TYPE   | STATE |   SINCE    |    INFO     |
+--------------+---------------+-------+------------+-------------+
| 172.20.0.11  | node specific | up    | 2021-02-16 | Established |
| 172.20.0.13  | node specific | up    | 2021-02-16 | Established |
| 172.20.0.254 | node specific | up    | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+

IPv6 BGP status
No IPv6 peers found.

可以看到该节点已经和leaf01交换机、node1和node3节点建立了BGP连接。

在node3节点操作

[root@node3 ~]# calicoctl node status
Calico process is running.

IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS |   PEER TYPE   | STATE |   SINCE    |    INFO     |
+--------------+---------------+-------+------------+-------------+
| 172.20.0.11  | node specific | up    | 2021-02-16 | Established |
| 172.20.0.12  | node specific | up    | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+

IPv6 BGP status
No IPv6 peers found.

可以看到该节点已经和node1和node2节点建立了BGP连接,因为该节点不作为路由反射器节点,所以并为与leaf01交换机建立bgp连接。

在node4节点操作

[root@node4 ~]# calicoctl node status
Calico process is running.

IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS |   PEER TYPE   | STATE |   SINCE    |    INFO     |
+--------------+---------------+-------+------------+-------------+
| 173.20.0.12  | node specific | up    | 2021-02-16 | Established |
| 173.20.0.13  | node specific | up    | 2021-02-16 | Established |
| 173.20.0.254 | node specific | up    | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+

IPv6 BGP status
No IPv6 peers found.

可以看到该节点已经和leaf02交换机、node5和node6节点建立了BGP连接。

在node5节点操作

[root@node5 ~]# calicoctl node status
Calico process is running.

IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS |   PEER TYPE   | STATE |   SINCE    |    INFO     |
+--------------+---------------+-------+------------+-------------+
| 173.20.0.11  | node specific | up    | 2021-02-16 | Established |
| 173.20.0.13  | node specific | up    | 2021-02-16 | Established |
| 173.20.0.254 | node specific | up    | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+

IPv6 BGP status
No IPv6 peers found.

可以看到该节点已经和leaf02交换机、node4和node6节点建立了BGP连接。

在node6节点操作

[root@node6 ~]# calicoctl node status
Calico process is running.

IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS |   PEER TYPE   | STATE |   SINCE    |    INFO     |
+--------------+---------------+-------+------------+-------------+
| 173.20.0.11  | node specific | up    | 2021-02-16 | Established |
| 173.20.0.12  | node specific | up    | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+

IPv6 BGP status
No IPv6 peers found.

可以看到该节点已经和node4和node5节点建立了BGP连接,因为该节点不作为路由反射器节点,所以并为与leaf02交换机建立bgp连接。

8. 交换机配置验证

我们可以在所有交换机里去查看BGP同步的路由信息有没有署于pod的路由地址

Spine交换机操作

Leaf01交换机操作

Leaf02交换机操作

在上面交换机操作截图中,10.233开头的地址段都是pod地址段的路由信息。

9. 将Service地址路由同步到物理网络

有些时候不光需要Pod地址可以在现网可被路由,Service地址也会有这个需求,我们可以通过修改bgpconfig配置来实现Service地址的路由同步,

首先检查是否具有默认的BGP配置

[root@node1 ~]# calicoctl get bgpconfig default
NAME      LOGSEVERITY   MESHENABLED   ASNUMBER   
default   Info          false         64512

默认的BGP配置是存在的,更新BGP配置

[root@node1 ~]# calicoctl patch BGPConfig default --patch \
> '{"spec": {"serviceClusterIPs": [{"cidr": "10.233.0.0/18"}]}}'
Successfully patched 1 'BGPConfiguration' resource

注意将上面10.233.0.0./18地址段修改为Service的地址段

上述配置完成之后,便可以在交换机里看到已经同步过来的Service地址段的路由信息。

10. 文档参考链接

绝大多数配置都可以通过Calico官方文档获取,以下就是撰写本文参考的主要官方文档链接

https://docs.projectcalico.org/networking/bgp

https://docs.projectcalico.org/getting-started/clis/calicoctl/install

https://docs.projectcalico.org/networking/advertise-service-ips#advertise-service-cluster-ip-addresses

    7 天 后
    3 个月 后

    这个文章很厉害,我们一直想要做这种方案。可以突破一台Tor 交换机限制。看到楼主的方案,应该是解决了我们现在痛点。感谢

      Ljohn001 很高兴可以帮助您解决问题,在社区我们可以一起学习和成长。