阿里巴巴的云原生与开发者

作者 | 李响 阿里云资深技术专家

关注“阿里巴巴云原生”公众号,回复关键词“容器”,可下载云栖大会容器专场全部 PPT

摘要:利用云原生技术构建应用简便快捷,部署应用轻松自如,运行应用按需伸缩。如今,云原生已经成为下一代技术发展的趋势。在 2019 杭州云栖大会开发者峰会上,阿里巴巴资深技术专家李响就为大家分享了阿里巴巴的云原生技术与开发者的那些故事。

为什么选择云原生?

云原生的本质目标就是充分释放云计算带来的红利,阿里巴巴希望开发者能够使用云上极致弹性的资源交付能力,也能够使用云上极为便捷的产品和服务。阿里巴巴实践云原生也已经走过了几年时间,并在去年启动了全站上云。阿里巴巴希望业务可以更好地拥抱云,更加全面地推进云原生。

a001

云原生既带来了技术红利,同时也带来了业务红利。

  • 在资源效率方面,云原生为资源效率带来了极大提升。使用容器、调度等技术不仅提高了单机维度的部署密度和资源效率,还提高了集群维度资源配置的合理性和使用率。除此之外,将业务搬到云上,还可以使用云的极致弹性的资源交付能力,既能够应对流量洪峰,也降低了资源的使用成本。

  • 在开发效率方面,使用 Kubernetes 这样的平台增强了运维自动化的能力,也增强了对应用和资源进行编排的能力,并降低了运维负担,提高了开发效率。同时,阿里云也在推动 CI/CD 系统的演进,希望加速应用从完成到上线的过程,并提高这一过程的稳定性和确定性,提高开发人员迭代的信心。此外,阿里云也希望将通用框架下沉到基础设施中,使得开发者能够在多语言的环境下更容易地接入和使用平台的能力,其中具有代表性的就是对服务网格的探索。

  • 在标准与开放方面,通过云原生可以帮助阿里巴巴实现基础设施和生态标准的完全融合。这不仅可以将开源生态中的新技术、新理念引入到阿里巴巴的基础设施中,利用阿里内部的大规模场景和复杂业务进行打磨、锤炼,并将经过打磨的结果回馈给社区,让它带给广大开发者更多的技术红利。还可以将打造的技术引入阿里云,打造出一套完整的云原生产品技术家族,帮助云上的开发者。

从 Kubernetes 开始

谈到实践云原生,其实可以从 Kubernetes 这个云原生的基石开始。从 Kubernetes 开始实践云原生的原因主要有两点:

  • 一是 Kubernetes 向下可以对接各种不同的资源层,既可以对接像阿里云这样的公有云,也可以对接专有云,因此可以利用 Kubernetes 构建混合云平台。
  • 二是 Kubernetes 向上提供了强大的自动化运维能力、编排能力以及强大的拓展性,因此可以在 Kubernetes 上层构建一些垂直性的平台能力,比如可观测性、服务治理以及无服务化。基于这些垂直能力,可以进一步构建更贴近业务的平台,这也正是 Kubernetes 本身“Platform for Platform”的定位。

a002

阿里巴巴的规模

阿里巴巴的规模非常庞大,内部有超过 10 个集群,超过 10 万个节点,以及超过百万级别的容器。那么,开源技术和开源项目是否能够承受阿里巴巴的体量?能够抗住双11峰值规模的考验呢?

阿里巴巴坚信一定要和上游共建生态,阿里不希望只是去 Fork
Kubernetes,而希望去锤炼和打造 Kubernetes,因此有三个策略:

  • 第一个策略是对自身业务进行负载的追踪和模拟,并将追踪和模拟的结果应用到 Kubernetes 云原生体系中进行测试。
  • 第二个策略是对于测试过程中发现的规模性问题,会持续优化,并反馈到上游,使得整个社区受益,进而推动云原生领域的发展。
  • 第三个策略是持续推动社区去接受这些可扩展的能力,阿里巴巴也定制了自己的调度器和控制器,来满足自身的业务场景。

Kubernetes 1.16 和 etcd 3.4

在最近发布的 Kubernetes 1.16 和 etcd 3.4 版本中,阿里巴巴和蚂蚁金服也一同作出了大量贡献,单机的数据存储规模提升了 50 倍,单集群节点规模也提升了 3 倍,完全可以满足阿里巴巴这样体量的公司在双 11 这种场景下的需求。今年的 618,蚂蚁金服已经对 Kubernetes 集群进行了验证,在即将到来的双 11,阿里会对 Kubernetes 集群进行再次验证。如果阿里巴巴可以使用 Kubernetes 作为云原生的基石,相信 99.9% 的企业都可以信任 Kubernetes 以及云原生技术。

a003

应用运维与交付

除了云原生的基石 Kubernetes 以外,阿里巴巴还希望推动整体基础设施的全面升级,希望把云原生技术的红利传导到更上层。

基础设施中一个重要的应用就是交付和运维,以前面向虚拟机的交付和运维非常复杂,并且不同企业有自己不同的运维模式和方法,可能是手动也可能是半自动,甚至在同一家企业内,运维手段也不尽相同。云原生倡导的是统一的平台和统一的理念,希望能够实现自动化运维,因此构建统一的应用模型和统一的应用架构分层就非常重要。

因此,阿里巴巴也同社区一起在推进云原生领域中应用交付与运维分层模型。并且将这一理念在阿里内部进行了规模化落地,目前已经推动了阿里内部的 4 个应用管理产品线面向云原生全面升级,构建了 100 多个应用。阿里认为这套应用结构非常有意义和价值,因此也与 CNCF 成立了应用交付领域小组,并由阿里的张磊担任小组联系主席 ,希望与社区一起推进这个项目。

a004

服务网格

在云原生领域中,位于更上层的系统就是服务网格。服务网格的好处在于具有强大的多语言支持能力,能够降低业务对接服务治理的难度,更易于实现统一的基础设施升级。在真正的实践中,Service Mesh 也会面临一些挑战,比如如何支持更多的协议,能否在大规模场景下得以较好运用,数据链路、服务面是否足够稳定等。

a005

为了解决 Service Mesh 面临的上述挑战,阿里巴巴和蚂蚁金服率先决定选用一套与社区兼容的体系,并在阿里巴巴和蚂蚁金服内部的云原生系统当中进行打磨。今年 618 蚂蚁金服已经完成核心系统上到 SOFAMosn 的验证工作,在马上来临的今年的双 11,阿里巴巴和蚂蚁金服将会在核心系统大规模上线 Service Mesh,同时会把自身技术演进的结果及时反馈到上游去,和社区一起把 Service Mesh 从一个非常先进的技术变成一个非常稳定和可靠的技术,并且会在阿里云推出 Service Mesh 服务,让阿里云上的开发者能够便捷地使用服务网格技术。

FaaS

FaaS 是开发人员非常喜欢的技术和概念,它可以极大地提升开发效率,使得开发者无需关注脚手架,可以直接以响应式模式来填充代码。同时,FaaS 可以帮助大家实现自动的扩容和缩容,当遇到问题时也可以帮助大家自动恢复,免去了运维的困扰。

a006

但 FaaS 本身也存在几个问题:

  • 第一个问题是如何找到一个既能够适应不同业务,也能够适应复杂业务逻辑的编程模型。
  • 第二个问题是如何在提供运维和弹性的自动化能力的同时,不增加额外的开销。

阿里巴巴希望在今年的双 11 考验 FaaS 服务的极致弹性和极致的启动时间,阿里也会把 FaaS 的研究结果及时反馈到上游和阿里云中去,为广大开发者提供更大的便利和红利。

开源社区贡献

阿里巴巴与蚂蚁金服对于核心开源社区的云原生领域都做出了巨大的贡献,并且在 etcd、Kata Containers、Containerd 以及 Dragonfly 等项目中都有核心 Maintainer。除这些项目外,我们也会持续向 Kubernetes 等云原生其他领域提供贡献,希望通过我们的努力,可以让云原生成为一个稳定、可靠的技术,成为企业未来的 IT 基石。

a007

引领开发者走向云原生

阿里巴巴在中国的开源社区以及开发者社区中有深厚的积累,之前就一直在运作很多开源项目。阿里巴巴希望用自身构建的土壤引领中国开发者走向云原生模式。

Dubbo

Dubbo 是国内最受开发者欢迎的微服务引擎之一,最近阿里把 Dubbo 捐献给了 Apache 基金会,希望它可以成为更加开放、更加标准的微服务引擎,希望能够与社区和开发者共建这个引擎。

a008

现在,阿里巴巴对 Apache Dubbo 有了新的期望,希望 Apache Dubbo 能够成为更云原生的微服务框架。因此,在 Apache Dubbo 未来的演进道路中,有三个具体目标:

  • 第一个目标是希望 Apache Dubbo 作为 RPC 框架可以更好地结合 Service Mesh,并对 Apache Dubbo 进行一定程度的瘦身,将一些能力下沉到 Service Mesh 上去。
  • 第二个目标是希望 Apache Dubbo 可以变得更加标准,能够和其他生态体系互融互通,能够支持 HTTP/2,能够融入 gRPC、Spring Cloud、Kubernetes 体系,为开发者提供更多选择。
  • 第三个目标是希望提升 Dubbo 本身的可观测性,支持 OpenTracing 等,使得基于 Apache Dubbo 构建的分布式系统能够具备更高的可运维能力。

Nacos

a009

Nacos 是阿里巴巴去年开源的一个项目,开源之后很快就收到了广泛的好评。目前在 GitHub 上有超过 8000 个 Star,也有数十家企业已经将 Nacos 应用到了生产环境中。Nacos 本身在阿里巴巴内部也支撑了巨大体量微服务的注册。Nacos 的研发目标是简单且易用,其提供了一组非常简单的 API,方便开发者使用 HTTP 或 DNS 进行服务发现。阿里巴巴希望 Nacos 能够成为联动传统微服务框架和云原生微服务框架的桥梁,因此也希望 Nacos 既可以注册传统服务,又能注册云原生服务,让两边的服务实现互融互通。这样才能帮助阿里巴巴以及广大开发者平滑、稳定地从传统服务治理模式演进到云原生的服务治理模式。

Apache RocketMQ

a010

Apache RocketMQ 也是一个来自阿里巴巴的开源消息系统,它的目标是低延迟、高可靠、高稳定。Apache RocketMQ 在国内也收到了广大开发者的好评,并且今年在各大城市都举办了 Apache
RocketMQ 开发者自发组织的 Meetup。除此之外,阿里云还提供了丰富的消息产品家族,而它们的内核都是 Apache RocketMQ。

未来,阿里巴巴也希望 Apache RocketMQ 可以进一步融入云原生。希望 Apache RocketMQ 更有弹性,能够做到自动的扩容和缩容,也希望它能够更容易地被部署和运维。因此,现在阿里巴巴也在做 Apache RocketMQ Operator,希望能够让 Apache RocketMQ 更容易地融入到 Kubernetes 生态体系中。此外,阿里巴巴也希望 Apache RocketMQ 能够更加开放和标准,并且目前在推广 OpenMessaging 标准协议,希望让 Apache RocketMQ 兼容 Cloudevent 体系,成为 Serverless 的桥梁。

ElasticDL

Deep Learning 是一个和云原生同一时代发展起来的领域。Deep Learning 对两件事情有很高的要求:

  • 第一件事情是资源效率,Deep Learning 需要利用巨大的算力做 Training。
  • 第二件事情是 Deep Learning 对模型和调参的迭代效率有非常高的要求,并且从模型训练完成到上线的过程需要自动化能力。

因此,Deep Learning 可以和云原生进行完美的融合,可以利用容器和调度的能力,把集群内部的异构资源合理地分配给 Deep Learning 框架使用,也可以将云原生所推广的自动化部署和运维能力提供给 Deep
Learning,缩短 Deep Learning 模型端到端上线的时间,增强 AI 的核心竞争力。

a011

ElasticDL 是蚂蚁金服刚刚发布的新一代基于云原生的开源 AI 学习平台,它的架构基于原生的 Kubernetes 体系,因此具有强大的容错能力和弹性调度能力。另外,ElasticDL 能够支持新一代的 TensorFlow 2.0 框架,也希望引领 AI 开发者走向新一代的机器学习。未来,ElasticDL 会支持更多的 AI 模型,让它本身变得更强大,也会更好地融入云原生体系和 Kubernetes 体系。

云原生技术公开课

除了对开源技术的贡献之外,阿里巴巴认为在知识、理念方面的推动也非常重要。因此,在今年年初,阿里巴巴上线了和 CNCF 联合出品的云原生技术公开课,目前服务了超过 1 万名开发者。后续,阿里巴巴还将会把课程的内容文字化,方便大家利用零散时间进行阅读。此外,阿里巴巴也正在做云原生技术手册,希望可以采访一些中小型公司和互联网企业,探讨他们在云原生领域的实践。阿里巴巴希望不仅能够为大家提供理念上的知识,还可以提供实践上的帮助。

a012

云原生与开源 Meetup

最后,阿里巴巴也在举办很多云原生以及开源相关的 Meetup,希望借助这样的活动拉近阿里巴巴和线下开发者的距离,倾听开发者的声音,了解开发者对社区的需求。也希望促进国内开发者的线下互动,增进相互了解,共同推动云原生领域在中国的落地和发展。

a013

“ 阿里巴巴云原生微信公众号(ID:Alicloudnative)关注微服务、Serverless、容器、Service Mesh等技术领域、聚焦云原生流行技术趋势、云原生大规模的落地实践,做最懂云原生开发者的技术公众号。”

posted @ 2019-10-14 14:03  阿里云云原生  阅读(1529)  评论(0编辑  收藏  举报