K8S的Service
虚拟 IP 和服务代理
每个 k8s 节点上都运行了一个 kube-proxy,kube-proxy 以 pod 形式存在。
kube-proxy 与 Service 息息相关,可以说 Service 负责定义规则,而 kube-proxy 则在节点上具体实现由 Service 指定的规则。具体地,kube-proxy 监听 Service 和 EndpointSlice 资源的更新,并配置节点上相应的路由规则。
有人会问,为什么不用 DNS,配置多条 A 记录,结合 round-robin 等负载均衡算法来自动将虚拟 IP 的请求分发到真实 IP 上。原因是:
- DNS 很可能不遵守 A 记录的 TTLs(Time to live),导致真实 IP 发生变化时不能及时感知;
- 有些 APP 可能只访问 DNS 一次,但 DNS 可能会将这条记录永久保存;
- 即使 DNS 遵守 TTLs 配置,然后为了及时感知变化,TTLs 配置得很低的话,可能导致 DNS 负载变得很高。
kube-proxy 的代理模式
kube-proxy 不做实际的包转发,而是根据从 apiserver 监听 Service 与 EndpointSlice 的变化,并维护节点上的包处理规则,比如配置 iptables 规则、ipvs 规则等,最终由内核来完成真实流量的转发。
根据不同的配置方式,分为几种代理模式(linux):
- iptables
- ipvs
- nftables
下面以 iptables 模式的 kube-proxy + clusterIP Service 为例,说明从 Service 创建到一个请求打到 pod 上是如何发生的。
首先创建 Service,控制面为其分配了一个虚拟 IP 10.96.0.123,端口为 1234,此时所有节点上的 kube-proxy 监听到这个 Service 的创建。
随后每个节点的 kube-proxy 会在节点上创建相同的 iptables 规则,主要分为三条 iptables 链(在节点上使用 iptables-save -t nat 可以查看):
-
KUBE-SERVICES 链:匹配 Service 的虚拟 IP 端口
-A KUBE-SERVICES -d 10.96.0.123/32 -p tcp --dport 1234 -j KUBE-SVC-XXXX -
KUBE-SVC-xxx 链:包含多个后端 pod 后端链,进入该链的流量,会被随机或轮询转发到其中一个 Pod 的 KUBE-SEP 链
-A KUBE-SVC-XXXX -j KUBE-SEP-aaa # Pod A -A KUBE-SVC-XXXX -j KUBE-SEP-bbb # Pod B ... -
KUBE-SEP-yyy 链:通过 DNAT 将请求的目标地址从虚拟 IP: port 改写为 podIP: targetPort
-A KUBE-SEP-aaa -j DNAT --to-destination 10.244.1.10:8080
通过维护这样的 iptables 分层模型,可以快速计算出到最终的目标 ip: port 的路由,整体过程如下:
PREROUTING 入口
↓
KUBE-SERVICES: 判断目标是不是某个 Service
↓
KUBE-SVC-xxxx: 对应该 Service 的 LB
↓
KUBE-SEP-yyyy: 选到具体某个 pod
↓
DNAT → PodIP:port
kube-proxy 的负载均衡,或者说 Service 的负载均衡的原理是配置 KUBE-SVC-XXXX 链,比如随机负载均衡:
-A KUBE-SVC-ABCDEF12345 -m statistic --mode random --probability 0.50 -j KUBE-SEP-111111
-A KUBE-SVC-ABCDEF12345 -j KUBE-SEP-222222
表示有两个 pod,按 50% 概率选择第一个 Pod,剩下的流量去第二个 Pod。
最后扩展一下,跨节点路由是怎么实现的?由 CNI(container network interface)插件来处理,比如 Flannel 首先会写系统路由表:
# 当前有两个节点
# node1 → 10.244.1.0/24
# node2 → 10.244.2.0/24
# 在node1
route add 10.244.2.0/24 via 192.168.1.102 dev flannel.1
# 在node2
route add 10.244.1.0/24 via 192.168.1.101 dev flannel.1
然后通过建立 vxlan 隧道,将数据封装在 UDP 包中发送到对端。
说白了就是,cni 负责 route、kube-proxy 负责 netfilter,前者决定包往哪儿走(L3,往哪个网卡/哪个节点发),后者决定包怎么被处理(L3/L4,是否做 DNAT/SNAT?是否丢弃?是否转发到别的 Pod)
Service
Service 用于提供统一稳定的 ip,并将流量负载均衡到 Service 所对应的一组 Endpoints。
结合上一节介绍的虚拟 IP 与 kube-proxy,用一个最简单的 ClusterIP 类型的 Service 来入门:
apiVersion: v1
kind: Service
metadata:
name: my-service
spec:
selector:
app.kubernetes.io/name: MyApp
ports:
- protocol: TCP
port: 80
targetPort: 9376
首先控制面给这个 Service 分配一个集群 IP(虚拟 IP),Service 控制器会不断检查是否有与 selector 匹配的 pods,并更新到 EndpointSlice 中。最后就是根据上面所说的,kube-proxy 检测到 Service 与 EndpointSlice 的更新,配置节点的 iptables。
带 selector 的 Service 的 backend 一般就是 Pod,但如果 backend 不是 Pod,可能是集群外部的服务,那么可以使用不带 selector 的 Service,没有 selector 的 Service 不会自动创建 EndpointSlice,由自己来配置并创建 EndpointSlice:
apiVersion: v1
kind: Service
metadata:
name: my-service
spec:
ports:
- name: http
protocol: TCP
port: 80
targetPort: 9376
---
apiVersion: discovery.k8s.io/v1
kind: EndpointSlice
metadata:
name: my-service-1 # EndpointSlice命令的最佳实践是以svc的名称作为前缀
labels:
# 这个label的值必须是svc的名称,将EndpointSlice与svc关联起来
kubernetes.io/service-name: my-service
addressType: IPv4
ports:
- name: http # should match with the name of the service port defined above
appProtocol: http
protocol: TCP
port: 9376
endpoints:
# 注意endpoint不能是虚拟IP
- addresses:
- "10.4.5.6"
- addresses:
- "10.1.2.3"
Service 支持多个端口到目标端口的映射:
apiVersion: v1
kind: Service
metadata:
name: my-service
spec:
selector:
app.kubernetes.io/name: MyApp
ports:
- name: http
protocol: TCP
port: 80
targetPort: 9376
- name: https
protocol: TCP
port: 443
targetPort: 9377
Service 的类型
之前我们默认使用的都是 ClusterIP 类型的 Service,实际上 Service 一共有以下几种类型:
-
ClusterIP:为 Service 分配一个仅在集群内可访问的虚拟 IP,如果要暴露到公网需要在接一个 Ingress 或者 Gateway
apiVersion: v1 kind: Service metadata: name: service-clusterip spec: selector: app.kubernetes.io/name: MyApp ports: - protocol: TCP port: 80 targetPort: 8080结果:
$ kubectl get svc service-clusterip NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE service-clusterip ClusterIP 10.96.229.241 <none> 80/TCP 2m28s -
NodePort:在 ClusterIP 的基础上,为每个 node 开放一个静态端口
apiVersion: v1 kind: Service metadata: name: service-nodeport spec: type: NodePort selector: app.kubernetes.io/name: MyApp-nodeport ports: - port: 80 targetPort: 80 nodePort: 30007 # nodePort也可以由控制面动态分配结果:
$ kubectl get svc service-nodeport NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE service-nodeport NodePort 10.96.31.20 <none> 80:30007/TCP 2m46s -
LoadBalancer:在 Nodeport 的基础上,自动创建一个云厂商提供的负载均衡器
-
ExternalName:最特殊的类型,没有 backend,不涉及代理和转发,仅仅是将请求重定向到一个外部的 DNS 名称。比如下面的配置,当访问
my-service.prod.svc.cluster.local名称时,会返回一个 CNAME 记录,值为my.database.example.comapiVersion: v1 kind: Service metadata: name: my-service namespace: prod spec: type: ExternalName externalName: my.database.example.com
无头 Service
普通的 Service 会分配一个 ClusterIP,并负载均衡所有背后的 Pod,旨在将多个无状态 backend 抽象为统一的入口。但无头 Service,不会分配 ClusterIP、kube-proxy 也不会处理(不生成任何 iptables/IPVS 规则、不做负载均衡),旨在将每个 Pod 的 IP 直接暴露出去,让应用层来决定如何连接。
创建无头 Service 只需要将 ClusterIP 类型的 Service 的 .spec.clusterIP 指定为 None:
spec:
clusterIP: None
无头 Service 暴露的 Pod IP 方式是集群 DNS。
其实对于普通 Service 来说,也会涉及到 DNS,DNS 会创建一个 Service 的完全限定域名(FQDN,Fully Qualified Domain Name),命令为 <service-name>.<namespace>.svc.cluster.local,其有一条值为 ClusterIP 的 A 记录。
无头 Service 的完全限定域名下则包含了 n 条 A 记录( n 为 backend Pod 的数量),值分别为每个 Pod 的 IP,并且还会为每个 Pod 创建单独完全限定域名,命名为 <pod-name>.<service-name>.<namespace>.svc.cluster.local,每个域名下包含值为该 Pod 的 IP 的 A 记录。
因此,无头 Service 的核心价值在于它提供了两种粒度的 DNS 解析:Service 域名(用于发现)和 Pod 域名(用于身份识别),前者可以用来做客户端侧负载均衡,后者用来为每个 Pod 提供稳定的身份,用于在有状态服务中 Pod 之间互相识别对等节点以稳定协同工作,即使 Pod 重建了,只要 Pod 名称没变,域名也不会变。举个 MySQL 主从节点的例子:
| 环节 | 动作描述 | 无头 Service 的作用 |
|---|---|---|
| 集群初始化 | mysql-1 需要知道主节点 mysql-0 的 稳定地址 来进行复制配置。 |
mysql-1 通过解析 mysql-0.mysql-headless.default.svc.cluster.local 稳定地找到主节点的 IP,建立复制连接。 |
| 内部访问 | 应用客户端需要读写数据,并将连接分散到主从节点。 | 客户端可以查询 mysql-headless,获取所有 Pod IP 列表,然后根据自身的逻辑(例如,写操作连主节点 IP,读操作连从节点 IP)进行客户端侧的连接管理。 |
| 节点故障/重启 | mysql-0 Pod 发生故障,被 K8s 重新调度。 |
即使 Pod IP 变了,它的稳定域名 mysql-0.mysql-headless 仍然解析到新的 IP 地址,复制关系和配置无需手动修改。 |
DNS
关于上面提到的集群 DNS,更详细的内容参考 https://kubernetes.io/docs/concepts/services-networking/dns-pod-service/

浙公网安备 33010602011771号