Kubernetes 基础架构实践二

Pod控制器

Workload (工作负载)

控制器又称工作负载是用于实现管理pod的中间层，确保pod资源符合预期的状态，pod的资源出现故障时，会尝试进行重启，当根据重启策略无效，则会重新新建pod的资源。

ReplicaSet: 代用户创建指定数量的pod副本数量，确保pod副本数量符合预期状态，并且支持滚动式自动扩容和缩容功能
Deployment：工作在ReplicaSet之上，用于管理无状态应用，目前来说最好的控制器。支持滚动更新和回滚功能，提供声明式配置
DaemonSet：用于确保集群中的每一个节点只运行特定的pod副本，通常用于实现系统级后台任务。比如EFK服务
Job：只要完成就立即退出，不需要重启或重建
Cronjob：周期性任务控制，不需要持续后台运行
StatefulSet：管理有状态应用

Deployment

myblog/deployment/deploy-mysql.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: mysql
  namespace: jds
spec:
  replicas: 1    #指定Pod副本数
  selector:        #指定Pod的选择器
    matchLabels:
      app: mysql
  template:
    metadata:
      labels:    #给Pod打label
        app: mysql
    spec:
      volumes:
      - name: mysql-data
        hostPath:
          path: /opt/mysql/data
      nodeSelector:   # 使用节点选择器将Pod调度到指定label的节点
        component: mysql
      hostNetwork: true
      containers:
      - name: mysql
        image: 10.2.2.10:5000/mysql:5.7-utf8
        ports:
        - containerPort: 3306
        env:
        - name: MYSQL_USER
          valueFrom:
            secretKeyRef:
              name: myblog
              key: MYSQL_USER
        - name: MYSQL_ROOT_PASSWORD
          valueFrom:
            secretKeyRef:
              name: myblog
              key: MYSQL_PASSWD
        - name: MYSQL_DATABASE
          value: "myblog"
        resources:
          requests:
            memory: 100Mi
            cpu: 50m
          limits:
            memory: 500Mi
            cpu: 100m
        readinessProbe:
          tcpSocket:
            port: 3306
          initialDelaySeconds: 5
          periodSeconds: 10
        livenessProbe:
          tcpSocket:
            port: 3306
          initialDelaySeconds: 15
          periodSeconds: 20
        volumeMounts:
        - name: mysql-data
          mountPath: /var/lib/mysql

myblog/deployment/deploy-myblog.yaml

apiVersion: apps/v1
kind: Deployment
metadata:
  name: myblog
  namespace: jds
spec:
  replicas: 1   #指定Pod副本数
  selector:             #指定Pod的选择器
    matchLabels:
      app: myblog
  template:
    metadata:
      labels:   #给Pod打label
        app: myblog
    spec:
      containers:
      - name: myblog
        image: 10.2.2.10:5000/myblog:v1
        imagePullPolicy: IfNotPresent
        env:
        - name: MYSQL_HOST
          valueFrom:
            configMapKeyRef:
              name: myblog
              key: MYSQL_HOST
        - name: MYSQL_PORT
          valueFrom:
            configMapKeyRef:
              name: myblog
              key: MYSQL_PORT
        - name: MYSQL_USER
          valueFrom:
            secretKeyRef:
              name: myblog
              key: MYSQL_USER
        - name: MYSQL_PASSWD
          valueFrom:
            secretKeyRef:
              name: myblog
              key: MYSQL_PASSWD
        ports:
        - containerPort: 8002
        resources:
          requests:
            memory: 100Mi
            cpu: 50m
          limits:
            memory: 500Mi
            cpu: 100m
        livenessProbe:
          httpGet:
            path: /blog/index/
            port: 8002
            scheme: HTTP
          initialDelaySeconds: 10  # 容器启动后第一次执行探测是需要等待多少秒
          periodSeconds: 15     # 执行探测的频率
          timeoutSeconds: 2             # 探测超时时间
        readinessProbe:
          httpGet:
            path: /blog/index/
            port: 8002
            scheme: HTTP
          initialDelaySeconds: 10
          timeoutSeconds: 2
          periodSeconds: 15

创建Deployment

## 删除之前创建的
$ kubectl delete -n jds pod mysql
pod "mysql" deleted
$ kubectl delete -n jds pod myblog
pod "myblog" deleted

## 创建Deployment
$ kubectl create -f deploy-mysql.yaml
deployment.apps/mysql created
$ kubectl create -f deploy-myblog.yaml
deployment.apps/myblog created

查看Deployment

# kubectl api-resources
$ kubectl -n jds get deploy
NAME     READY   UP-TO-DATE   AVAILABLE   AGE
myblog   1/1     1            1           2m20s
mysql    1/1     1            1           2m24s

  * `NAME` 列出了集群中 Deployments 的名称。
  * `READY`显示当前正在运行的副本数/期望的副本数。
  * `UP-TO-DATE`显示已更新以实现期望状态的副本数。
  * `AVAILABLE`显示应用程序可供用户使用的副本数。
  * `AGE` 显示应用程序运行的时间量。
 
# 查看pod
$ kubectl -n jds get pods
NAME                      READY   STATUS    RESTARTS   AGE
myblog-55f54b6c6b-htljx   1/1     Running   0          3m10s
mysql-6cd46b56b6-9dp8t    1/1     Running   0          3m14s

# 查看replicaSet
$ kubectl -n jds get rs
NAME                DESIRED   CURRENT   READY   AGE
myblog-55f54b6c6b   1         1         1       4m1s
mysql-6cd46b56b6    1         1         1       4m5s

$ kubectl -n jds get pods -o wide
NAME                      READY   STATUS             RESTARTS   AGE     IP            NODE         NOMINATED NODE   READINESS GATES
myblog-55f54b6c6b-htljx   1/1     Running            0          7m56s   10.244.2.20   k8s-slave2   <none>           <none>
mysql-6cd46b56b6-9dp8t    1/1     Running            0          8m      10.2.2.11     k8s-slave1   <none>           <none>

副本保障机制

controller实时检测pod状态，并保障副本数一直处于期望的值

## 删除pod，观察pod状态变化
$ kubectl -n jds delete pod myblog-7c96c9f76b-qbbg7
pod "myblog-55f54b6c6b-htljx" deleted

## 观察pod, 又自动启动了一个pod
$ kubectl get pods -o wide
kubectl -n jds get pods -o wide
NAME                      READY   STATUS             RESTARTS   AGE   IP            NODE         NOMINATED NODE   READINESS GATES
myblog-55f54b6c6b-fbnf9   1/1     Running            0          82s   10.244.1.19   k8s-slave1   <none>           <none>
mysql-6cd46b56b6-9dp8t    1/1     Running            0          11m   10.2.2.11     k8s-slave1   <none>           <none>

## 设置两个副本, 或者通过kubectl -n jds edit deploy myblog的方式，最好通过修改文件，然后apply的方式，这样yaml文件可以保持同步
$ kubectl -n jds scale deploy myblog --replicas=2
deployment.apps/myblog scaled

# 观察pod, 自动又成了1个 myblog pods
$ kubectl -n jds get pods -o wide
NAME                      READY   STATUS    RESTARTS   AGE     IP            NODE         NOMINATED NODE   READINESS GATES
myblog-55f54b6c6b-fbnf9   1/1     Running   0          4m18s   10.244.1.19   k8s-slave1   <none>           <none>
myblog-55f54b6c6b-j78zx   1/1     Running   0          25s     10.244.2.21   k8s-slave2   <none>           <none>
mysql-6cd46b56b6-9dp8t    1/1     Running   0          14m     10.2.2.11     k8s-slave1   <none>           <none>

Pod驱逐策略

K8S 有个特色功能叫 pod eviction，它在某些场景下如节点 NotReady，或者资源不足时，把 pod 驱逐至其它节点，这也是出于业务保护的角度去考虑的

Kube-controller-manager: 周期性检查所有节点状态，当节点处于 NotReady 状态超过一段时间后，驱逐该节点上所有 pod，停掉kubelet

pod-eviction-timeout：NotReady 状态节点超过该时间后，执行驱逐，默认 5 min

## 将 pod-eviction-timeout 定义到下面配置文件里
## vim /etc/kubernetes/manifests/kube-controller-manager.yaml
spec:
  containers:
  - command:
    - kube-controller-manager
    - --allocate-node-cidrs=true
    - --authentication-kubeconfig=/etc/kubernetes/controller-manager.conf
    - --authorization-kubeconfig=/etc/kubernetes/controller-manager.conf
    - --bind-address=127.0.0.1
    - --pod-eviction-timeout=300s
 ...

Kubelet: 周期性检查本节点资源，当资源不足时，按照优先级驱逐部分 pod
- memory.available：节点可用内存
- nodefs.available：节点根盘可用存储空间
- nodefs.inodesFree：节点inodes可用数量
- imagefs.available：镜像存储盘的可用空间
- imagefs.inodesFree：镜像存储盘的inodes可用数量

服务更新

修改服务，重新打tag模拟服务更新

更新方式：

修改yaml文件，使用kubectl -n jds apply -f deploy-myblog.yaml来应用更新
kubectl -n jds edit deploy myblog在线更新
kubectl -n jds set image deploy myblog myblog=10.2.2.10:5000/myblog:v2 --record

修改文件测试：

## 添加版本v2测试
$ vi /opt/python-demo/blog/templates/index.html
 
$ docker build . -t 10.2.2.10:5000/myblog:v2 -f Dockerfile
$ docker push 10.2.2.10:5000/myblog:v2

更新策略

...
spec:
  replicas: 2    #指定Pod副本数
  selector:        #指定Pod的选择器
    matchLabels:
      app: myblog
  strategy:
    rollingUpdate:
      maxSurge: 25%
      maxUnavailable: 25%
    type: RollingUpdate        #指定更新方式为滚动更新，默认策略，通过get deploy yaml查看
    ...

策略控制：

maxSurge：最大激增数, 指更新过程中, 最多可以比replicas预先设定值多出的pod数量, 可以为固定值或百分比,默认为desired Pods数的25%。计算时向上取整(比如3.4，取4)，更新过程中最多会有replicas + maxSurge个pod
maxUnavailable：指更新过程中, 最多有几个pod处于无法服务状态 , 可以为固定值或百分比，默认为desired Pods数的25%。计算时向下取整(比如3.6，取3)

在Deployment rollout时，需要保证Available(Ready) Pods数不低于 desired pods number - maxUnavailable; 保证所有的非异常状态Pods数不多于 desired pods number + maxSurge

以myblog为例，使用默认的策略，更新过程:

maxSurge 25%，2个实例，向上取整，则maxSurge为1，意味着最多可以有2+1=3个Pod，那么此时会新创建1个ReplicaSet，RS-new，把副本数置为1，此时呢，副本控制器就去创建这个新的Pod
同时，maxUnavailable是25%，副本数2*25%，向下取整，则为0，意味着，滚动更新的过程中，不能有少于2个可用的Pod，因此，旧的Replica（RS-old）会先保持不动，等RS-new管理的Pod状态Ready后，此时已经有3个Ready状态的Pod了，那么由于只要保证有2个可用的Pod即可，因此，RS-old的副本数会有2个变成1个，此时，会删掉一个旧的Pod
删掉旧的Pod的时候，由于总的Pod数量又变成2个了，因此，距离最大的3个还有1个Pod可以创建，所以，RS-new把管理的副本数由1改成2，此时又会创建1个新的Pod，等RS-new管理了2个Pod都ready后，那么就可以把RS-old的副本数由1置为0了，这样就完成了滚动更新

#查看滚动更新事件
$ kubectl -n jds describe deploy myblog
...
Events:
  Type    Reason             Age   From                   Message
  ----    ------             ----  ----                   -------
  Normal  ScalingReplicaSet  11s   deployment-controller  Scaled up replica set myblog-6cf56fc848 to 1
  Normal  ScalingReplicaSet  11s   deployment-controller  Scaled down replica set myblog-6fdcf98f9 to 1
  Normal  ScalingReplicaSet  11s   deployment-controller  Scaled up replica set myblog-6cf56fc848 to 2
  Normal  ScalingReplicaSet  6s    deployment-controller  Scaled down replica set myblog-6fdcf98f9 to 0

$ kubectl get rs
NAME                     DESIRED   CURRENT   READY   AGE
myblog-6cf56fc848   2         2         2       16h
myblog-6fdcf98f9    0         0         0       16h

服务回滚

通过滚动升级的策略可以平滑的升级Deployment，若升级出现问题，需要最快且最好的方式回退到上一次能够提供正常工作的版本。为此K8S提供了回滚机制

revision：更新应用时，K8S都会记录当前的版本号，即为revision，当升级出现问题时，可通过回滚到某个特定的revision，默认配置下，K8S只会保留最近的几个revision，可以通过Deployment配置文件中的spec.revisionHistoryLimit属性增加revision数量，默认是10。

查看当前版本：

$ kubectl -n jds rollout history deploy myblog ##CHANGE-CAUSE为空
deployment.apps/myblog
REVISION  CHANGE-CAUSE
1         <none>

$ kubectl delete -f deploy-myblog.yaml    ## 方便演示到具体效果，删掉已有deployment
deployment.apps "myblog" deleted

记录回滚版本：

## 将副本数修改为2 replicas: 2 
$ kubectl create -f deploy-myblog.yaml --record
deployment.apps/myblog created

$ kubectl -n jds set image deploy myblog myblog=10.2.2.10:5000/myblog:v2 --record=true

查看deployment更新历史：

$ kubectl -n jds rollout history deploy myblog
deployment.apps/myblog
REVISION  CHANGE-CAUSE
1         kubectl create --filename=deploy-myblog.yaml --record=true
2         kubectl set image deploy myblog myblog=10.2.2.10:5000/myblog:v2 --namespace=jds --record=true

回滚到具体的REVISION:

## --to-revision=1, 选择REVISION 回滚记录的序号
$ kubectl -n jds rollout undo deploy myblog --to-revision=1
deployment.extensions/myblog rolled back
 
# 访问应用测试

Kubernetes服务访问之Service

通过上面，能够通过Deployment来创建一组Pod来提供具有高可用性的服务。虽然每个Pod都会分配一个单独的Pod IP，然而却存在如下两个问题：

Pod IP仅仅是集群内可见的虚拟IP，外部无法访问
Pod IP会随着Pod的销毁而消失，当ReplicaSet对Pod进行动态伸缩时，Pod IP可能随时随地都会变化，这样对于访问这个服务带来了难度

Service 负载均衡之Cluster IP

service是一组pod的服务抽象，相当于一组pod的LB，负责将请求分发给对应的pod。service会为这个LB提供一个IP，一般称为cluster IP 。使用Service对象，通过selector进行标签选择，找到对应的Pod

myblog/deployment/svc-myblog.yaml

apiVersion: v1
kind: Service
metadata:
  name: myblog
  namespace: jds
spec:
  ports:
  - port: 80
    protocol: TCP
    targetPort: 8002
  selector:
    app: myblog
  type: ClusterIP

操作演示：

## 别名
$ alias kn='kubectl -n jds'
 
## 创建服务
$ kn create -f svc-myblog.yaml
service/myblog created

## 查看pod 和 node 的标签
$ kubectl get nodes --show-labels
$ kn get po --show-labels
NAME                      READY   STATUS             RESTARTS   AGE   LABELS
myblog-55f54b6c6b-2fhgt   1/1     Running            0          13h   app=myblog,pod-template-hash=55f54b6c6b
mysql-6cd46b56b6-9dp8t    1/1     Running            0          15h   app=mysql,pod-template-hash=6cd46b56b6

## service = svc
$ kn get service
NAME     TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)   AGE
myblog   ClusterIP   10.96.136.128   <none>        80/TCP    12m

$ kn describe svc myblog
Name:              myblog
Namespace:         jds
Labels:            <none>
Annotations:       <none>
Selector:          app=myblog
Type:              ClusterIP
IP:                10.96.136.128
Port:              <unset>  80/TCP
TargetPort:        8002/TCP
Endpoints:         10.244.1.23:8002
Session Affinity:  None
Events:            <none>

# 注意 若一开始是2个副本集 可以删除一个pod 在看cluster IP是否会浮动
# 强制删除pod
$ kubectl delete -n jds pod myblog-55f54b6c6b-2fhgt --force --grace-period=0
warning: Immediate deletion does not wait for confirmation that the running resource has been terminated. The resource may continue to run on the cluster indefinitely.
pod "myblog-55f54b6c6b-2fhgt" force deleted

## 扩容myblog服务
$ kn scale deploy myblog --replicas=2
deployment.extensions/myblog scaled

## 再次查看
$ kn describe svc myblog
Name:              myblog
Namespace:         jds
Labels:            <none>
Annotations:       <none>
Selector:          app=myblog
Type:              ClusterIP
IP:                10.96.136.128
Port:              <unset>  80/TCP
TargetPort:        8002/TCP
Endpoints:         10.244.1.23:8002,10.244.2.24:8002
Session Affinity:  None
Events:            <none>

$ kn get po --show-labels
NAME                      READY   STATUS             RESTARTS   AGE   LABELS
myblog-55f54b6c6b-2fhgt   1/1     Running            0          13h   app=myblog,pod-template-hash=55f54b6c6b
myblog-55f54b6c6b-lr4cl   1/1     Running            0          13h   app=myblog,pod-template-hash=55f54b6c6b
mysql-6cd46b56b6-9dp8t    1/1     Running            0          15h   app=mysql,pod-template-hash=6cd46b56b6

Service与Pod如何关联:

service对象创建的同时，会创建同名的endpoints对象，若服务设置了readinessProbe, 当readinessProbe检测失败时，endpoints列表中会剔除掉对应的pod_ip，这样流量就不会分发到健康检测失败的Pod中

kn get endpoints myblog
NAME     ENDPOINTS                           AGE
myblog   10.244.1.24:8002,10.244.2.24:8002   29m

Service Cluster-IP如何访问:

$ kn get svc myblog
$ curl 10.96.136.128/blog/index/

为mysql服务创建service：
myblog/deployment/svc-mysql.yaml

apiVersion: v1
kind: Service
metadata:
  name: mysql
  namespace: jds
spec:
  ports:
  - port: 3306
    protocol: TCP
    targetPort: 3306
  selector:
    app: mysql
  type: ClusterIP

访问mysql：

$ kn create -f svc-mysql.yaml
service/mysql created

$ kn get svc mysql
NAME     TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)    AGE
mysql    ClusterIP   10.109.128.174   <none>        3306/TCP   42s

$ curl 10.109.128.174:3306

目前使用hostNetwork部署，通过宿主机ip+port访问，弊端：

服务使用hostNetwork，使得宿主机的端口大量暴漏，存在安全隐患
容易引发端口冲突

服务均属于k8s集群，尽可能使用k8s的网络访问，因此可以对目前myblog访问mysql的方式做改造：

为mysql创建一个固定clusterIp的Service，把clusterIp配置在myblog的环境变量中
利用集群服务发现的能力，组件之间通过service name来访问

服务发现

在k8s集群中，组件之间可以通过定义的Service名称实现通信

演示服务发现：

## 演示思路：在myblog的容器中直接通过service名称访问服务，观察是否可以访问通

## 先查看服务
$ kn get service
NAME     TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)    AGE
myblog   ClusterIP   10.96.136.128    <none>        80/TCP     44m
mysql    ClusterIP   10.109.128.174   <none>        3306/TCP   8m39s

$ kn get pods
NAME                      READY   STATUS             RESTARTS   AGE
myblog-55f54b6c6b-lr4cl   1/1     Running            0          14h
myblog-55f54b6c6b-v8jz6   1/1     Running            0          21m
mysql-6cd46b56b6-9dp8t    1/1     Running            0          16h

## 进入myblog容器
$ kubectl -n jds exec -ti myblog-55f54b6c6b-lr4cl bash
[root@myblog-55f54b6c6b-lr4cl myblog]# curl mysql:3306
[root@myblog-55f54b6c6b-lr4cl myblog]# curl myblog/blog/index/

虽然podip和clusterip都不固定，但是service name是固定的，而且具有完全的跨集群可移植性，因此组件之间调用的同时，完全可以通过service name去通信，这样避免了大量的ip维护成本，使得服务的yaml模板更加简单。因此可以对mysql和myblog的部署进行优化改造：

mysql可以去掉hostNetwork部署，使得服务只暴漏在k8s集群内部网络
configMap中数据库地址可以换成Service名称，这样跨环境的时候，配置内容基本上可以保持不用变化

修改deploy-mysql.yaml

$ vim deploy-mysql.yaml
...
    spec:
      hostNetwork: true    # 去掉此行
      volumes:
      - name: mysql-data
        hostPath:
          path: /opt/mysql/data
...

修改configmap.yaml
$ kn edit cm myblog
configmap/myblog edited

apiVersion: v1
kind: ConfigMap
metadata:
  name: myblog
  namespace: jds
data:
  MYSQL_HOST: "mysql"    # 此处替换为mysql
  MYSQL_PORT: "3306"

应用修改：

$ kubectl delete -f deployment-mysql.yaml
$ kubectl create -f deployment-mysql.yaml
## myblog不用动，会自动因健康检测不过而重启

MYSQL_HOST= , 由原来的IP换成了变量

服务发现实现：

CoreDNS是一个Go语言实现的链式插件DNS服务端，是CNCF成员，是一个高性能、易扩展的DNS服务端

$ kubectl -n kube-system get pods -o wide | grep dns
coredns-58cc8c89f4-fm5k2             1/1     Running   5          9d    10.244.0.12   k8s-master   <none>           <none>
coredns-58cc8c89f4-r5tft             1/1     Running   5          9d    10.244.0.13   k8s-master   <none>           <none>
 
# 查看myblog的pod解析配置
$ kubectl -n jds exec -ti myblog-55f54b6c6b-lr4cl bash
[root@myblog-55f54b6c6b-lr4cl myblog]# cat /etc/resolv.conf
nameserver 10.96.0.10
search jds.svc.cluster.local svc.cluster.local cluster.local
options ndots:5

[root@myblog-55f54b6c6b-lr4cl myblog]# curl mysql.jds.svc.cluster.local:3306
 
## 10.96.0.10 从哪来
$ kubectl -n kube-system get svc
NAME       TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)                  AGE
kube-dns   ClusterIP   10.96.0.10   <none>        53/UDP,53/TCP,9153/TCP   9d

## 启动pod的时候，会把kube-dns服务的cluster-ip地址注入到pod的resolve解析配置中，同时添加对应的namespace的search域。 因此跨namespace通过service name访问的话，需要添加对应的namespace名称，
service_name.namespace
$ kubectl get svc
NAME         TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)   AGE
kubernetes   ClusterIP   10.96.0.1    <none>        443/TCP   9d

Service负载均衡之NodePort

cluster-ip为虚拟地址，只能在k8s集群内部进行访问，集群外部如果访问内部服务，实现方式之一为使用NodePort方式。NodePort会默认在 30000-32767 ，不指定的会随机使用其中一个

myblog/deployment/svc-myblog-nodeport.yaml

apiVersion: v1
kind: Service
metadata:
  name: myblog-np
  namespace: jds
spec:
  ports:
  - port: 80
    protocol: TCP
    targetPort: 8002
  selector:
    app: myblog
  type: NodePort

查看并访问服务：

$ kn create -f svc-myblog-nodeport.yaml
service/myblog-np created

$ kn get svc
NAME        TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)        AGE
myblog      ClusterIP   10.96.136.128    <none>        80/TCP         94m
myblog-np   NodePort    10.101.5.11      <none>        80:30921/TCP   16s
mysql       ClusterIP   10.109.128.174   <none>        3306/TCP       59m

## 集群内每个节点的NodePort端口都会进行监听
$ curl 10.2.2.10:30921/blog/index/
我的博客列表
$ curl 10.2.2.11:30921/blog/index/
我的博客列表
## 浏览器访问

思考：

NodePort的端口监听如何转发到对应的Pod服务？
CLUSTER-IP为虚拟IP，集群内如何通过虚拟IP访问到具体的Pod服务？

kube-proxy

运行在每个节点上，监听 API Server 中服务对象的变化，再通过创建流量路由规则来实现网络的转发。参照

有三种模式：

User space, 让 Kube-Proxy 在用户空间监听一个端口，所有的 Service 都转发到这个端口，然后 Kube-Proxy 在内部应用层对其进行转发，所有报文都走一遍用户态，性能不高，k8s v1.2版本后废弃
Iptables，当前默认模式，完全由 IPtables 来实现，通过各个node节点上的iptables规则来实现service的负载均衡，但是随着service数量的增大，iptables模式由于线性查找匹配、全量更新等特点，其性能会显著下降
IPVS，与iptables同样基于Netfilter，但是采用的hash表，因此当service数量达到一定规模时，hash查表的速度优势就会显现出来，从而提高service的服务性能。 k8s 1.8版本开始引入，1.11版本开始稳定，需要开启宿主机的ipvs模块

IPtables模式示意图：

$ iptables-save | grep -v myblog-np | grep "jds/myblog"
-A KUBE-SERVICES ! -s 10.244.0.0/16 -d 10.96.136.128/32 -p tcp -m comment --comment "jds/myblog: cluster IP" -m tcp --dport 80 -j KUBE-MARK-MASQ
-A KUBE-SERVICES -d 10.96.136.128/32 -p tcp -m comment --comment "jds/myblog: cluster IP" -m tcp --dport 80 -j KUBE-SVC-HNPXLKIY6BVOTTG2

$ iptables-save | grep KUBE-SVC-HNPXLKIY6BVOTTG2
:KUBE-SVC-HNPXLKIY6BVOTTG2 - [0:0]
-A KUBE-SERVICES -d 10.96.136.128/32 -p tcp -m comment --comment "jds/myblog: cluster IP" -m tcp --dport 80 -j KUBE-SVC-HNPXLKIY6BVOTTG2
-A KUBE-SVC-HNPXLKIY6BVOTTG2 -m statistic --mode random --probability 0.50000000000 -j KUBE-SEP-BZEPM6POXQ5UAW4H
-A KUBE-SVC-HNPXLKIY6BVOTTG2 -j KUBE-SEP-QW7BLDR25O3SIRT4

 
$  iptables-save | grep KUBE-SEP-BZEPM6POXQ5UAW4H
:KUBE-SEP-BZEPM6POXQ5UAW4H - [0:0]
-A KUBE-SEP-BZEPM6POXQ5UAW4H -s 10.244.1.24/32 -j KUBE-MARK-MASQ
-A KUBE-SEP-BZEPM6POXQ5UAW4H -p tcp -m tcp -j DNAT --to-destination 10.244.1.24:8002
-A KUBE-SVC-HNPXLKIY6BVOTTG2 -m statistic --mode random --probability 0.50000000000 -j KUBE-SEP-BZEPM6POXQ5UAW4H

$ iptables-save | grep KUBE-SEP-QW7BLDR25O3SIRT4
:KUBE-SEP-QW7BLDR25O3SIRT4 - [0:0]
-A KUBE-SEP-QW7BLDR25O3SIRT4 -s 10.244.2.24/32 -j KUBE-MARK-MASQ
-A KUBE-SEP-QW7BLDR25O3SIRT4 -p tcp -m tcp -j DNAT --to-destination 10.244.2.24:8002
-A KUBE-SVC-HNPXLKIY6BVOTTG2 -j KUBE-SEP-QW7BLDR25O3SIRT4

Kubernetes服务访问之Ingress

对于Kubernetes的Service，无论是Cluster-Ip和NodePort均是四层的负载，集群内的服务如何实现七层的负载均衡，这就需要借助于Ingress，Ingress控制器的实现方式有很多，比如nginx, Contour, Haproxy, trafik, Istio。几种常用的ingress功能对比和选型可以参考这里

Ingress-nginx是7层的负载均衡器，负责统一管理外部对k8s cluster中Service的请求。主要包含：

ingress-nginx-controller：根据用户编写的ingress规则（创建的ingress的yaml文件），动态的去更改nginx服务的配置文件，并且reload重载使其生效（是自动化的，通过lua脚本来实现）；
Ingress资源对象：将Nginx的配置抽象成一个Ingress对象

 apiVersion: networking.k8s.io/v1beta1
 kind: Ingress
 metadata:
   name: simple-example
 spec:
   rules:
   - host: foo.bar.com
     http:
       paths:
       - path: /
         backend:
           serviceName: service1
           servicePort: 8080

示意图：

实现逻辑

ingress controller通过和kubernetes api交互，动态的去感知集群中ingress规则变化
然后读取ingress规则(规则就是写明了哪个域名对应哪个service)，按照自定义的规则，生成一段nginx配置
再写到nginx-ingress-controller的pod里，这个Ingress controller的pod里运行着一个Nginx服务，控制器把生成的nginx配置写入/etc/nginx/nginx.conf文件中
然后reload一下使配置生效。以此达到域名分别配置和动态更新的问题

安装

官方文档

$ wget https://raw.githubusercontent.com/kubernetes/ingress-nginx/nginx-0.30.0/deploy/static/mandatory.yaml

## 或者使用myblog/deployment/ingress/mandatory.yaml

## 修改部署节点
$ grep -n5 nodeSelector mandatory.yaml
212-    spec:
213-      hostNetwork: true #添加为host模式
214-      # wait up to five minutes for the drain of connections
215-      terminationGracePeriodSeconds: 300
216-      serviceAccountName: nginx-ingress-serviceaccount
217:      nodeSelector:
218-        ingress: "true"        #替换此处，来决定将ingress部署在哪些机器
219-      containers:
220-        - name: nginx-ingress-controller
221-          image: quay.io/kubernetes-ingress-controller/nginx-ingress-controller:0.30.0
222-          args:

创建ingress

# 为k8s-master节点添加label
$ kubectl label node k8s-master ingress=true
 
$ kubectl create -f mandatory.yaml
namespace/ingress-nginx created
configmap/nginx-configuration created
configmap/tcp-services created
configmap/udp-services created
serviceaccount/nginx-ingress-serviceaccount created
clusterrole.rbac.authorization.k8s.io/nginx-ingress-clusterrole created
role.rbac.authorization.k8s.io/nginx-ingress-role created
rolebinding.rbac.authorization.k8s.io/nginx-ingress-role-nisa-binding created
clusterrolebinding.rbac.authorization.k8s.io/nginx-ingress-clusterrole-nisa-binding created
deployment.apps/nginx-ingress-controller created
limitrange/ingress-nginx created

$ kubectl get ns | grep nginx
ingress-nginx     Active   3d
$ kubectl -n ingress-nginx get pod
NAME                                      READY   STATUS    RESTARTS   AGE
nginx-ingress-controller-b54b857c-qb2mx   1/1     Running   3          3d

## 查看标签 label 命令
[root@k8s-master opt]# kubectl get node --show-labels
NAME         STATUS   ROLES    AGE     VERSION   LABELS
k8s-master   Ready    master   5d23h   v1.16.2   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,ingress=true,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-master,kubernetes.io/os=linux,node-role.kubernetes.io/master=
k8s-slave1   Ready    <none>   5d23h   v1.16.2   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,component=mysql,ingress=true,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-slave1,kubernetes.io/os=linux
k8s-slave2   Ready    <none>   5d23h   v1.16.2   beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-slave2,kubernetes.io/os=linux

#注意：如果一开始搭建k8s环境时没有指定master节点为node节点 且无上一步 # 为k8s-master节点添加label时，是无法被调度到slave1上的，即master上有污点
[root@k8s-master opt]# kubectl -n ingress-nginx get pod
NAME                                       READY   STATUS    RESTARTS   AGE
nginx-ingress-controller-766b7d9f4-d59ds   0/1     Pending   0          35s
[root@k8s-master opt]# kubectl label node k8s-slave1 ingress=true
node/k8s-slave1 labeled
[root@k8s-master opt]# kubectl -n ingress-nginx get pod
NAME                                       READY   STATUS              RESTARTS   AGE
nginx-ingress-controller-766b7d9f4-d59ds   0/1     ContainerCreating   0          2m22s
[root@k8s-master opt]# kubectl -n ingress-nginx get deploy
NAME                       READY   UP-TO-DATE   AVAILABLE   AGE
nginx-ingress-controller   1/1     1            1           65s

使用示例：myblog/deployment/ingress.yaml

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
  name: myblog
  namespace: jds
spec:
  rules:
  - host: myblog.jds.com
    http:
      paths:
      - path: /
        backend:
          serviceName: myblog
          servicePort: 80

启动示例

$ kubectl create -f ingress.yaml
ingress.extensions/myblog created

## ingress = ing
$ kubectl -n jds get ingress
NAME     HOSTS            ADDRESS   PORTS   AGE
myblog   myblog.jds.com             80      36m

$ kubectl -n jds get ing
NAME     HOSTS            ADDRESS   PORTS   AGE
myblog   myblog.jds.com             80      32s

$ kubectl -n jds describe ingress myblog
Name:             myblog
Namespace:        jds
Address:
Default backend:  default-http-backend:80 (<none>)
Rules:
  Host            Path  Backends
  ----            ----  --------
  myblog.jds.com
                  /   myblog:80 (10.244.1.24:8002,10.244.2.24:8002)
Annotations:
Events:
  Type    Reason  Age   From                      Message
  ----    ------  ----  ----                      -------
  Normal  CREATE  113s  nginx-ingress-controller  Ingress jds/myblog

ingress-nginx动态生成upstream配置：


$ kubectl -n ingress-nginx get pods
NAME                                       READY   STATUS    RESTARTS   AGE
nginx-ingress-controller-766b7d9f4-tzv5t   1/1     Running   0          3h51m
$ kubectl -n ingress-nginx exec -ti nginx-ingress-controller-766b7d9f4-tzv5t bash
bash-5.0$ ps aux
bash-5.0$ grep -n "myblog" /etc/nginx/nginx.conf
...
                server_name myblog.jds.com ;
 
                listen 80  ;
                listen [::]:80  ;
                listen 443  ssl http2 ;
                listen [::]:443  ssl http2 ;
 
                set $proxy_upstream_name "-";
 
                ssl_certificate_by_lua_block {
                        certificate.call()
                }
 
                location / {
 
                        set $namespace      "jds";
                        set $ingress_name   "myblog";
...

访问

域名解析服务，将 myblog.jds.com解析到ingress的地址上。ingress是支持多副本的，高可用的情况下，生产的配置是使用lb服务（内网F5设备，公网elb、slb、clb，解析到各ingress的机器，如何域名指向lb地址）

本机添加如下hosts记录

#先查看ip在哪个pod上
$ kubectl -n ingress-nginx get pods -o wide
NAME                                       READY   STATUS    RESTARTS   AGE    IP          NODE         NOMINATED NODE   READINESS GATES
nginx-ingress-controller-766b7d9f4-tzv5t   1/1     Running   0          5h2m   10.2.2.11   k8s-slave1   <none>           <none>

10.2.2.10 myblog.jds.com

然后，访问 http://myblog.luffy.com/blog/index/

HTTPS访问：

## 自签名证书
$ mkdir cert && cd cert
$ openssl req -x509 -nodes -days 2920 -newkey rsa:2048 -keyout tls.key -out tls.crt -subj "/CN=*.luffy.com/O=ingress-nginx"
Generating a 2048 bit RSA private key
.........................+++
.......................................................................+++
writing new private key to 'tls.key'
-----

## 证书信息保存到secret对象中，ingress-nginx会读取secret对象解析出证书加载到nginx配置中
$ kubectl -n jds create secret tls https-secret --key tls.key --cert tls.crt
secret/https-secret created

修改vim ingress-tls.yaml

apiVersion: extensions/v1beta1
kind: Ingress
metadata:
  name: myblog-tls
  namespace: jds
spec:
  rules:
  - host: myblog.jds.com
    http:
      paths:
      - path: /
        backend:
          serviceName: myblog
          servicePort: 80
  tls:
  - hosts:
    - myblog.jds.com
    secretName: https-secret

查看创建的信息

$ kubectl create -f ingress-tls.yaml
ingress.extensions/myblog-tls created

$ kubectl -n jds get ing
NAME         HOSTS            ADDRESS   PORTS     AGE
myblog       myblog.jds.com             80        37m
myblog-tls   myblog.jds.com             80, 443   8s

然后，访问 https://myblog.jds.com/blog/index/

多路径转发及重写的实现

多path转发示例：

目标

myblog.jds.com -> 10.2.2.10 ->        /foo   service1:4200
                                      /bar   service2:8080
                                      /         myblog:80

实现:

## vim ingress-path.yaml
apiVersion: networking.k8s.io/v1beta1
kind: Ingress
metadata:
  name: simple-fanout-example
  namespace: jds
spec:
  rules:
  - host: myblog.jds.com
    http:
      paths:
      - path: /foo
        backend:
          serviceName: service1
          servicePort: 4200
      - path: /bar
        backend:
          serviceName: service2
          servicePort: 8080
      - path: /
        backend:
          serviceName: myblog
          servicePort: 80

nginx的URL重写:

目标

myblog.jds.com -> 10.2.2.10 -> /foo/    myblog:80/admin/

实现：

## vim ingress-path2.yaml
apiVersion: networking.k8s.io/v1beta1
kind: Ingress
metadata:
  name: rewrite-path
  namespace: jds
  annotations:
    nginx.ingress.kubernetes.io/rewrite-target: /admin/$1
spec:
  rules:
  - host: myblog.jds.com
    http:
      paths:
      - path: /foo/(.*)
        backend:
          serviceName: myblog
          servicePort: 80

访问测试

小结

核心描述如何通过k8s管理业务应用
介绍k8s的架构、核心组件和工作流程，使用kubeadm快速安装k8s集群
定义Pod.yaml，将myblog和mysql打包在同一个Pod中，myblog使用localhost访问mysql
mysql数据持久化，为myblog业务应用添加了健康检查和资源限制
将myblog与mysql拆分，使用独立的Pod管理
yaml文件中的环境变量存在账号密码明文等敏感信息，使用configMap和Secret来统一配置，优化部署
只用Pod去直接管理业务应用，对于多副本的需求，很难实现，因此使用Deployment Workload
有了多副本，多个Pod如何去实现LB入口，因此引入了Service的资源类型，有CLusterIp和NodePort
ClusterIP是四层的IP地址，不固定，不具备跨环境迁移，因此利用coredns实现集群内服务发现，组件之间直接通过Service名称通信，实现配置的去IP化
对Django应用做改造，django直接使用mysql:3306实现数据库访问
为了实现在集群外部对集群内服务的访问，因此创建NodePort类型的Service
介绍了Service的实现原理，通过kube-proxy利用iptables或者ipvs维护服务访问规则，实现虚拟IP转发到具体Pod的需求
为了实现集群外使用域名访问myblog，因此引入Ingress资源，通过定义访问规则，实现七层代理
考虑真实的场景，对Ingress的使用做了拓展，介绍多path转发及nginx URL重写的实现

posted @ 2021-01-18 21:48 一墨无辰阅读(207) 评论(0) 收藏举报

刷新页面返回顶部

月遇从云花遇和风

Kubernetes 基础架构实践二

Pod控制器

Workload (工作负载)

Deployment

创建Deployment

查看Deployment

副本保障机制

Pod驱逐策略

服务更新

更新策略

服务回滚

Kubernetes服务访问之Service

Service 负载均衡之Cluster IP

服务发现

Service负载均衡之NodePort

kube-proxy

Kubernetes服务访问之Ingress

示意图：

实现逻辑

安装

访问

多路径转发及重写的实现

小结

公告

月遇从云 花遇和风

Kubernetes 基础架构实践 二

Pod控制器

Workload (工作负载)

Deployment

创建Deployment

查看Deployment

副本保障机制

Pod驱逐策略

服务更新

更新策略

服务回滚

Kubernetes服务访问之Service

Service 负载均衡之Cluster IP

服务发现

Service负载均衡之NodePort

kube-proxy

Kubernetes服务访问之Ingress

示意图：

实现逻辑

安装

访问

多路径转发及重写的实现

小结

公告

月遇从云花遇和风

Kubernetes 基础架构实践二