Kubernetes简介

　　Kubernetes是Google开源的一款容器编排工具，它是诞生在Google内部运行N多年的博格系统之上的产物，因此其成熟度从其诞生初期就广泛受到业界的关注，并且迅速成为编排工具市场的主流，其社区活跃度非常高，版本迭代速度也很惊人，它的主要作用是对Docker容器做编排工作，当然，Docker只是容器工具的一种引擎，K8s可支持多种容器引擎，但从目前来说Docker容器引擎是具有绝对优势的，容器需要编排，也很容易理解，因为我们最核心要跑到业务通常都是LNMT/P的不同形式的扩展，但NMT/P他们的运行是有先后顺序的，也就是说MySQL要先启动，然后是Tomcat或PHP，最后是Nginx，而控制这种顺序就需要有容器编排工具来帮我们实现，另外，我们的业务希望7x24小时在线，如何保障？靠人是很难做到实时的，但编排工具可以，K8s帮我们实现了很多控制器，这控制器可以帮我们监控容器运行的状态，并自动帮我们重建(在容器时代重启就是重建)容器，并且还可以在容器处理能力不足时，自动根据我们定义的扩展规则，自动创建新Pod(k8s中最小单元,每个Pod中可有一个或多个容器)，并且在压力下去后，自动删除Pod等等功能。

另外这里是K8s的中文官方文档zh站点:

　　https://k8smeetup.github.io/docs/

Kubernetes:
　　它至少需要3个Master节点
　　Master节点的主要组件:
　　　API Server: 主要用来接收其它组件发来的请求，并作出相应的处理.
　　　Scheduler: 主要负责挑选出一个最佳node节点来运行pod，它挑选合适的node,通常分两个阶段，
　　　　第一个阶段:是先通过初步筛选, 根据运行pod的最大要求,如: 4G内存, 6颗CPU等需求,来做
　　　　初步筛选,假如从20台中选出了3台, 则进入第二阶段,在从这3台中选出一台最符合的节点，
　　　　这时就需要综合考量各种因素，最后将选出了一台最佳运行节点告诉给API Server,在由
　　　　Master节点负责调度Pod在该node节点上运行起来。
　　Controller：它是负责监控Node上运行的Pod是否正常工作，若它发现自己监控的某个Pod故障了，
　　　　它会向API Server发出通告，并要求Master在其它节点上再重新启动一个相同的Pod，
　　　　然后将故障的Pod Kill掉。
　　Controller-Manager：它是负责监控所有Controller是否正常工作的，在Kubernetes集群中，有很多
　　　　个功能各异的Controller, 监控Pod健康状态的Controller只是其中之一，Controller-Manager
　　　　它用于监控这些Controller工作状态的，一旦Controller故障，它将重启一个新的Controller来
　　　　代替它工作。
　　但是若Controller-Manager故障怎么办？其实Master在创建时,要求最少要有3个节点，每个节点都会启动一个Controller-Manager,启动一个为主Controller-Manager，其它两个或多个为备用的Controller-Manager，一旦主Controller-Manager故障，则备用的Controller-Manager将代替它继续工作。

Node0：
　　Pod：它是Kubernetes中最基本的单元，一个Pod其实是一个容器的抽象，或叫容器的壳，它内部
　　　　其实就是一个或多个容器。一个容器中只能运行一个应用程序，所以有时一个应用程序需要
　　　　强依赖另一个应用程序一起工作，如：ELK中要收集每个应用的日志，它就需要在每个应用
　　　　节点上部署自己的日志收集器,如Logstash, 那么对于Nginx,它的日志要放入ELK中，它就需要
　　　　和Logstash放到一起，但一个容器中只能运行一个应用程序，所以就需要在一个Pod中运行
　　　　两个容器，来完成这个需求，所以在K8s系统中，将一个Pod做为一个整体，一个基本原子来管理。
　　Label Selector：在一个Kubernetes集群中，需要管理的Pod有很多，它们被调度到不同的Node节点上
　　　　运行，这么多Pod运行在不同的Node节点上，怎么对它们做管理？通过字符串名称？那么一个
　　　　Pod运行过程中故障，又被重启到其它Node上,那么它的字符串名称必然要改变,那么这又怎么
　　　　能唯一标示一个Pod？所以这就需要用到Label Selector(标签选择器)，实际上，Pod在K8s系统
　　　　中它们都有一类标签，如:将运行Nginx的Pod都打一个App=Nginx的标签，将运行HAProxy的Pod
　　　　都打上App=HAProxy,等等...那么在查找所有运行Nginx的Pod时，就可以通过标签选择器，通过
　　　　条件App, 并且其值为Nginx来查询，就可以将所有是App=Nginx的Pod都标记出来，进行管理操作了。
　　Kubelet：它运行在Node上，接受APIServer发来的启动,停止或删除Pod请求，并按照请求，在Node实际执行
　　　　操作的守护进程。
　　Docker：是实际Pod的运行环境提供者.

Pod:
　　自主式Pod：它也是向API Server发请求,APIServer再通过Scheduler选择最佳Node节点,最后有kubelet在
　　　　docker环境中创建Pod,但是一旦Node节点宕机，则该Pod将消失。因此不建议实行这种方式。
控制器管理的Pod:
　　控制器又分为以下几个:
　　　1. ReplicationController(副本控制器): 它是早期的Pod管理器,它负责接收用户请求,来创建精确指定数量的Pod,
　　　　　　如用户请求创建2个Nginx Pod,它会自动向API Server发请求,API Server在让Scheduler选择
　　　　　　最佳创建的Node节点，来创建两个Pod,假如当前创建的一个Pod在Node3上, 结果Node3运行
　　　　　　一段时间后宕机了，这时ReplicationController会发现副本数量不够了,它会再次请求API Server
　　　　　　由它控制这Scheduler重新选择一个最佳Node节点,来重新创建一个Pod,这样就能保证Pod 的
　　　　　　数量始终能够达到用户期望的个数。
　　　　它还支持滚动更新：简单说就是假如现在我们的镜像升级了,需要用新版镜像来启动Pod，
　　　　　　这时副本控制器会请求API Server使用新的镜像来创建Pod, API依然是调度Scheduler,
　　　　　　选择最佳节点，kubelet根据最新镜像创建新Pod,这时Pod有三个,副本控制器此时会将
　　　　　　旧的Pod 删除,然后再请求API Server创建新Pod,最后,再将旧Pod删除,这样就完成滚动
　　　　　　更新了，当然它还支持回滚操作。
　以下为新版本的控制器:
　　2.ReplicaSet:副本集控制器
　　 Deployment: ReplicaSet不直接使用，一般使用Deployment来管理无状态的应用。
　　 HPA(HorizontalPodAutoscaler: 水平Pod自动伸缩控制器)：
　　　　在实际工作中当我们定义了一组Pod, 假如说为2个Pod,平时它们都能应付用户较小规模的访问量,但
　　　某一时刻用户访问量突然增加, 2个Pod不足以应付,这时HPA控制,还能自己根据定义,如两个Pod的CPU使用
　　　率要控制在60%左右,HPA经过计算,若有满足CPU利用率高于60%，需要再增加2个Pod,则它将自动再创建
　　　两个Pod来承载用户访问流量，当访问量下去了，4个Pod的CPU使用率都很低,则HPA将自动销毁多余的2个Pod.
　3. StatefulSet：有状态副本集控制器
4. DaemonSet: 若需要在一个特定的Node节点上运行一个Pod时,需要使用它。
5. Job：它用于定义一个仅需要运行一次作业的Pod, 如: 我们需要启动一个Pod来负责清理垃圾，就可以定义一个
　　　　job,若job执行完成Pod退出,这是正常期望，若Pod运行过程中故障退出,但清理工作没有完成,则Job将会再
　　　　次请求创建新的Pod来完成剩余的清理工作。
　　Ctonjob: 运行周期性作业.
　　　　这些控制器都是为了完成用户期望的运行方式，而产生的。

服务自动发现:
　　问题: 作为容器的Pod是为客户端提供某种服务的,如Nginx等, 但是Pod在运行过程中不可避免的会出问题，因此
　　　　就需要将有问题的Pod销毁，在创建新的Pod,而新Pod的主机名和IP都将改变,那前端的客户端要如何正常
　　　　访问到这些提供服务的Pod？
　　K8s中的解决方案:
　　　提供一个自动发现服务,它对于前端的客户端来说，它是一个代理，对于后端Pod来说，它是调度器，自动发现服务是怎么工作的？它实际上是借助于Label Selector，自动发现服务先将自己管理的Pod标签，交给Label Selector,它会找到所有包含此标签的Pod,然后自动发现服务,再去探测找到的每个Pod的IP和端口，并将它们作为自己可调度的服务Pod。
　　那自动发现服务其本质是什么？它实际上是一个ipvs规则, 早期使用的是iptables的目标端口映射规则，但其负载均衡能力太差，在新版的k8s中就改用ipvs的NAT规则了。但需要注意无论是iptables的DNAT规则，还是ipvs的NAT规则，它们面向客户端都有一个地址, 即客户端访问这个地址时，iptables会将去往这个地址的流量做DNAT，转换为其后端的Pod的IP和端口, ipvs也一样，它也是将访问该地址的流量转换为后端Pod的IP和端口，那么这个地址就是前端客户端需要明确知道的，而且它是固定的；但是这些地址是ping不通的！但它们可被解析，因为这些地址仅作为规则使用，没有配置在任何接口上，也就意味者它们没有TCP/IP协议栈的支持。
　　另外，客户端访问这些Service(即自动发现服务)是通过名称访问的，而解析这些名称的DNS是K8s中的基础服务！这些DNS被称为AddOns(附件)类组件。

K8s系统的主要组件示意图:

　　注:
　　　Service: 就是自动发现服务
　　　Controller：是用于控制Pod的生存周期的，每个Controller只负责控制一部分Pod,一旦Pod出故障，它将自动请求APIServer在创建新的Pod替换故障Pod.
　　　Pod: 如Nginx、Tomcat等Pod，它们要访问其它Pod，都需要知道该Pod的前端代理(Service)是谁，所以在配置时，需要明确告诉它们,如：Nginx要代理用户请求至Tomcat,它需要知道Tomcat的前端Service的域名，而这个域名是事先告知Nginx的,这是固定的，Nginx会先去访问DNS的Serivce，获取域名的解析地址后，在去访问Tomcat的前端Service。Tomcat访问后端MySQL也一样。因此DNS服务是K8s中的基础服务，必须要有。
　　注：若service的域名和IP若发生改变，DNS会自动触发修改相应的A记录。
　　在K8s系统中:
　　　　需要手动创建的组件有: serivce, controller

另外： K8s系统若部署在机房中，那么它就必须有一组边缘物理主机上配置公网IP，以便能接入外部流量进来。
　　当然，也可以在K8s外部单独部署调度器，由调度器将流量发到K8s内网中。但这时调度器将不在K8s的可管理范围了，所以图中给出的是，K8s运行在云系统上的情况，使用这些云系统中的LBaaS，来创建虚拟调度器，这样K8s就可以调用底层云的API来管理这些虚拟调度器了。

K8s的三种网络模型:
　　1. 一个Pod内多个容器时，它们之间的通信，靠本地环回(lo)
　　2. Pod间通信要通过service来完成.
　　　　在Docker中,容器之间通信要借助两次NAT转换才行，即NodeA上的容器要访问NodeB上的容器,它们是先将请求发给网关(通常是docker0桥),然后docker0在将流量转发出去前，要先做一次SNAT,接着到达NodeB后，还需要做DNAT，才能进入NodeB中的容器中，实现容器间通信。但在K8s中，这就太麻烦了，而且也会让通信变动更混乱，因为NodeA上的容器根本不知道访问的NodeB上的容器节点是谁，所以就变成这样:Pod将请求发给网关(docker0),docker0与物理网卡是桥接,当docker0要向目标发请求时，它通过查询本地的iptables规则或 ipvs规则得知目标的地址，因此将流量转发给目标，目标收到请求后，做出响应，返回给它的前端service，service在将请求代理给本地Pod.简单示意图:
　　　　NodeA【Pod--->docker0-->Service--->】-------------->NodeB【--->docker0--->Pod】
　　3. Service成为访问的关键了，但service它只是规则，它怎么能自动监控Pod的改变？它怎么会出现在所有Node上？所以这里还有一个在Node上的守护进程，kube-proxy
　　　　kube-proxy: 它是用于管理Service的，用户手动创建service后，后续的管理都有kube-proxy来完成。
　　　　　　它会自动监控着service后端的Pod是否发生改变，若发生改变，它会立即通知API Server,
　　　　　　API Server收到通知后,它会将这个消息通告给所有关联的订阅者,如 kube-proxy, 每个Node上
　　　　　　的kube-proxy收到这个通告消息后，它们会自动将这个消息反映在本地的iptables 或 ipvs规则中。

API Server：它会接收K8s集群中所有动态变化的信息，所有变化都要先通知API Server，那API Server的数据存储在哪里？为了避免API Server故障导致数据丢失，这些数据又需要存放在一个共享存储中.这个共享存储就是etcd.
　　　注：etcd: 它是一个Key-Value存储的数据库,类似于Redis,但它功能更强大,它支持更多协调机制.

　　注:
　　　　API Server和etcd直接使用HTTP协议通信
　　　　API Server和其Client也是HTTP协议通信
　　　　API Server与kubelet 和 kube-proxy的通信也是HTTP协议.
　　　　为了避免数据被盗取，必须在它们之间都启用CA认证机制，即使用HTTPS协议.

基于以上所有基础，现在将其简略如下图:
这就是K8s的三种网络模型.

　注:
　　此图中显示的三种网络:
　　节点网络: 是构建K8s集群时，我们自行需要构建的物理网络.
　　Service网络和 Pod网络则需要通过CNI(容器网络接口)来引入第三方网络插件来实现.
　　因为K8s并没有提供网络支持功能.
　　在K8s的CNI规范中, 它要求网络插件需要实现：网络管理和网络策略.
　　　　网络管理: 即给Pod配置IP地址等.
　　　　网络策略: 它是用来实现K8s的网络名称空间之间是否能够互相通信，在一个k8s网络名称空间中,是否允许Pod和Pod之间互相通信等.这些控制策略都是由iptables规则实现的,实际上。
　　k8s的网络名称空间:
　　　　这个网络名称空间是K8s提供的管理边界，即我们可以定义多个网络名称空间，每个网络名称空间可做为不同的项目或不同的租户使用, 比如: A公司申请了两个网络名称
空间，一个做为开发环境，一个作为生产环境, 当我们不需要当前这个生产环境了，要使用升级后的生产环境,我们只需要删除现有生产环境的这个网络名称空间即可，所以
说k8s的网络名称空间实际上提供了一个管理边界。但这两个网络名称空间中的Pod是在同一个网络中的,它们是可以互相通信的，所以，网络策略是用来决定它们之间是否能通信的。
　CNI:
　　目前实行CNI规范的产品有很多,以下为比较知名的产品:
　　flannel: 它是一个比较简单的CNI实现,它仅实现了网络配置.
　　calico: 它是一个非常复杂的CNI实现，它实现了网络配置和网络策略, 并且它内部实现了三层网络隧道进行路由通信，其路由协议为BGP.
　　canel: 它是flannel 和 calico的组合体项目，它使用了flannel网络配置的简单，又整合了calico的网络策略.

posted @ 2019-08-01 21:18 张朝锋阅读(7427) 评论(1) 收藏举报

刷新页面返回顶部

wn1m

Kubernetes简介

公告