云原生周刊:Kubernetes v1.34 正式发布
云原生热点
Kubernetes v1.34 正式发布
近日,Kubernetes 正式发布了 v1.34 版本,代号“风与意志”,这是2025年的第二个大版本更新,包含58项功能改进,其中23项升级为稳定版、22项进入测试版、13项进入alpha阶段,且没有引入任何破坏性变更。
该版本主题“风与意志”寓意社区力量推动Kubernetes持续发展,核心功能包括动态资源分配(DRA)正式GA,提供更灵活的GPU等设备管理;ServiceAccount令牌用于镜像拉取认证进入beta,提升安全性;生产级追踪功能稳定,增强可观测性;调度与资源管理增强,如Pod级别资源请求和限制进入beta、异步调度器API调用进入beta等;安全性与运维改进,如结构化认证配置稳定、基于选择器的细粒度授权稳定等;工作负载管理增强,如Job替换策略稳定、Deployment引入类似策略等。对于升级用户,建议在测试环境验证兼容性、关注特性门控变化、查看API迁移指南并备份数据,Kubesphere团队也已启动对该版本的兼容性测试。
vLLM 社区原生支持 HAMi,推理效率飞跃
vLLM 社区通过 PR#579 原生支持 CNCF Sandbox & CNAI Project HAMi,提升了大模型推理的GPU资源利用率和部署灵活性。本文详细描述了vLLM与HAMi的结合点、社区驱动的融合背景、以及如何在Kubernetes 中通过安装和配置 HAMi 与 vLLM 实现多模型部署与资源复用的完整过程,包括安装步骤、资源配置、功能测试和结果验证。最后,展望了 HAMi 在未来模型推理部署中的应用前景,并提供了社区交流的相关信息。
技术实践
文章推荐
理解 AI on K8s
CNCF 大使刘训灼探讨了在云原生时代,Kubernetes(K8s)作为资源管理的事实标准,如何在AI大模型快速发展的背景下应对构建AI基础设施的独特挑战。文章从计算、存储、网络和调度四大核心要素出发,分析了运行AI大模型的K8s集群与普通K8s集群的区别,重点讨论了异构资源管理(如GPU、NPU等)的挑战及解决方案,介绍了Device Plugin机制及其演进;在存储方面,强调了分布式缓存系统(如JuiceFS)在加速海量数据访问中的作用;在网络方面,探讨了单机多卡和多机多卡架构中的高性能通信技术(如GPUDirect、RDMA等),以及如何通过这些技术提升AI训练和推理的效率。最终,文章总结了构建高效AI on K8s平台所需关注的核心竞争力与技术要点。
优化 Docker 镜像体积的深度分析与实践指南
在 AI 项目的开发中,Docker 镜像的体积往往被忽视,但它对构建速度、部署效率和云成本有着直接影响。本文通过分析一个 2.54GB 的 BERT 分类器镜像,揭示了常见的体积膨胀源,如庞大的基础操作系统层、冗余的 apt-get 缓存、以及庞大的 Python 库(如 torch、transformers、numpy)等。这些因素共同导致了镜像体积的急剧增加。
为了解决这一问题,作者推荐使用开源工具 dive,它能够以交互方式展示每一层的文件系统结构,帮助开发者识别和定位体积膨胀的具体来源。例如,dive 可以揭示未清理的 apt 缓存和不必要的文件复制操作,提供“潜在浪费空间”的指标,帮助开发者发现 Dockerfile 中的低效设计。文章还提供了多个优化策略,如使用多阶段构建、选择更精简的基础镜像、合理利用.dockerignore 文件等。
LLM-D:Kubernetes 上的大模型推理优化架构
在 Kubernetes 上运行大型语言模型(LLM)推理任务面临独特挑战,尤其是在资源调度、负载均衡和高效通信方面。传统的 Web 应用架构无法满足 LLM 推理对低延迟和高吞吐量的需求。为此,Google 与 Red Hat 联合开发了 LLM-D(Large Language Model Deployment),这是一个 Kubernetes 原生的高性能分布式推理框架,旨在优化大模型推理的部署和执行效率。
开源项目推荐
Kong
Kong 是一个开源、高性能且可扩展的 API 网关,自 2015 年由 Mashape 开源以来,它已成为管理和路由 API 请求与微服务通信的核心组件。它构建于 Nginx 和 OpenResty(即 Nginx + Lua)之上,提供插件化架构,使用户能够通过丰富的官方插件或自定义 Lua 插件轻松添加认证、限流、日志、转换等功能。Kong 支持多协议(如 HTTP/HTTPS、gRPC、WebSocket),具备高性能、低延迟与横向扩展能力,适用于从单体应用到复杂微服务架构的各种场景。
Kgateway
Kgateway 是一个基于 Envoy 和 Kubernetes Gateway API 的高性能云原生入口/API 网关,支持传统应用、微服务、无服务器及混合架构,具备丰富的认证、限流、请求转换、安全性与 AI/LLM 路由能力,同时可用作服务网格(ambient mesh)的统一入口。
Koordinator
Koordinator 是一个专为 Kubernetes 设计的基于 QoS(服务质量)的现代调度系统,旨在高效协同运行微服务、AI、及大数据等混合工作负载。它通过弹性资源配额、高效 Pod 打包、资源超卖与隔离、以及干扰检测和 QoS 管理插件(由 QoSManager 协调),在提升资源利用率的同时保障延迟敏感型服务的稳定性与性能。
KubeSphere 企业版限时优惠火热来袭!
三重优惠政策:
1️⃣ 免费试用:个人 / 企业均可免费申请 1个月试用 License
2️⃣ 订阅授权:买一年送一年,再享 9 折优惠
3️⃣ 永久授权:限时 5 折特惠,另赠 2年免费维保
为什么选择 KubeSphere 企业版?
🚀 产品力升级:强大全能扩展,企业级可靠性保障
👨💼 专属守护:客户经理一对一服务,深度优化使用体验
⚡ 极速响应:5分钟内开启保障通道,护航关键业务
🌙 全天候护航:7×24小时技术支持,不间断守护
🔒 主动防御:定期巡检,提前排查隐患 & 性能优化
🔥 立即去官网申请试用,解锁企业级 Kubernetes 体验!
关于KubeSphere
KubeSphere (https://kubesphere.io)是在 Kubernetes 之上构建的容器平台,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。
KubeSphere 已被 Aqara 智能家居、本来生活、东方通信、微宏科技、东软、新浪、三一重工、华夏银行、四川航空、国药集团、微众银行、紫金保险、去哪儿网、中通、中国人民银行、中国银行、中国人保寿险、中国太平保险、中国移动、中国联通、中国电信、天翼云、中移金科、Radore、ZaloPay 等海内外数万家企业采用。KubeSphere 提供了开发者友好的向导式操作界面和丰富的企业级功能,包括 Kubernetes 多云与多集群管理、DevOps (CI/CD)、应用生命周期管理、边缘计算、微服务治理 (Service Mesh)、多租户管理、可观测性、存储与网络管理、GPU support 等功能,帮助企业快速构建一个强大和功能丰富的容器云平台。

浙公网安备 33010602011771号