摘要:cgroup是linux内核中用于实现资源使用限制和统计的模块,docker的风靡一时少不了cgroup等特性的支持。kubernetes作为容器编排引擎,除了借助docker进行容器进程的资源管理外,还提供了一些更加高级的资源管理功能,以提高资源利用率和更加稳定的程序运行环境,其中必然少不了cgr 阅读全文
posted @ 2019-10-27 12:01 gaorong404 阅读 (188) 评论 (0) 编辑
摘要:kubernetes 中的抢占功能是调度器比较重要的feature,但是真正使用起来还是比较危险,否则很容易把低优先级的pod给无辜kill。为了提高GPU集群的资源利用率,决定勇于尝试一番该featrue。当然使用之前还是得阅读一下相关的代码做到心里有数,出了问题也方便定位修复。 基本原理 优先级 阅读全文
posted @ 2019-10-21 22:48 gaorong404 阅读 (167) 评论 (0) 编辑
摘要:背景 随着公司业务的发展,底层容器环境也需要在各个区域部署,实现多云架构, 使用各个云厂商提供的CNI插件是k8s多云环境下网络架构的一种高效的解法。我们在阿里云的方案中,便用到了阿里云提供的CNI插件terway。terway所提供的VPC互通的网络方案,方便对接已有的基础设施,同时没有overl 阅读全文
posted @ 2019-10-20 21:59 gaorong404 阅读 (298) 评论 (0) 编辑
摘要:Golang里的http request timeout比较简单,但是稍不留心就容易出现错误,最近在kubernetes生产环境中出现了的一个问题让我有机会好好捋一捋golang中关于timeout中的所有相关的东西。 Basic golang中timeout有关的设置, 资料已经比较多, 其中必须 阅读全文
posted @ 2019-08-13 11:46 gaorong404 阅读 (467) 评论 (0) 编辑
摘要:kubernetes社区非常活跃,每季度都会发布一个release。但是线上集群业务可用性要求较高,场景复杂,任何微小的变更都需要非常小心,此时跟随社区版本进行升级略显吃力。但是为了能够使用到最新的一些feature我们必须不定期进行一些升级操作,在经历了一次线上集群的升级操作,踩完一些坑之后,分享 阅读全文
posted @ 2019-08-07 17:26 gaorong404 阅读 (829) 评论 (3) 编辑
摘要:Background kubernetes是master slave结构,master node是集群的大脑, 当master node发生故障时整个集群都"out of control"。master node中最重要的当属apiserver组件, 它负责处理所有请求, 并持久化状态到etcd。 阅读全文
posted @ 2019-05-28 16:00 gaorong404 阅读 (1155) 评论 (2) 编辑
摘要:请结合源码阅读,本文只是总结一下,源码里有详细的注释。基于:go1.12.4 http.Client 表示一个http client端,用来处理HTTP相关的工作,例如cookies, redirect, timeout等工作,其内部包含一个Transport,为RountTripper inter 阅读全文
posted @ 2019-05-21 09:41 gaorong404 阅读 (1813) 评论 (0) 编辑
摘要:background docker docker的日志输出可以通过指定driver输出到不同的位置,常用的是 和`json file journald journald json file /var/lib/docker/containers/${docker uid} log opt json f 阅读全文
posted @ 2019-05-17 17:03 gaorong404 阅读 (136) 评论 (0) 编辑
摘要:Highlight 本文会介绍kubernetes中关于集群驱逐的相关参数, 合理设置驱逐速率的考虑因素, 但是不会涉及node层面资源的驱逐阈值的设置。 Basic 在kubernetes中, 如果一个node出现故障, 例如节点宕机或与节点网络异常, controller manager中的no 阅读全文
posted @ 2019-05-07 09:31 gaorong404 阅读 (271) 评论 (0) 编辑
摘要:kubernetes等容器技术可以将所有的业务进程运行在公共的资源池中,提高资源利用率,节约成本,但是为避免不同进程之间相互干扰,对底层docker, kubernetes的隔离性就有了更高的要求,kubernetes作为一门新盛的技术,在这方面还不够成熟, 近期在一个staging集群就发生了,i 阅读全文
posted @ 2019-03-04 17:42 gaorong404 阅读 (886) 评论 (0) 编辑