云原生周刊:K8s 之父谈 AI 时代基础设施演进

云原生热点

Koordinator v1.8 正式发布:面向混部场景的调度与 GPU 能力增强

Koordinator 是面向 Kubernetes 的 QoS-based 混部/混合编排调度系统,核心目标是同时提升延迟敏感型服务与批处理任务的运行效率和可靠性,降低资源参数调优复杂度,并通过提高 Pod 部署密度来提升集群资源利用率。它覆盖的典型负载包括微服务、Web 服务、大数据任务、AI 任务等。

v1.8 版本重点增强了调度能力、异构设备/GPU 支持、资源预留与预分配,以及可观测和诊断能力。其中,资源预留相关能力围绕 reservation、pre-allocation、multi-scheduler/multi-profile、NodeNUMAResource 和 DeviceShare 等场景进行了适配与修复,更适合复杂混部和 AI 负载调度场景。

Cilium v1.19.4 发布:聚焦数据面稳定性、Cluster Mesh 与网关修复

Cilium 是一个基于 eBPF 的云原生网络、安全与可观测性项目,常用于 Kubernetes 集群的 CNI、服务发现、网络策略、负载均衡和跨集群通信。它提供扁平三层网络能力,支持原生路由或 overlay 模式,也能基于身份而不是 IP 地址做 L3-L7 网络策略控制。

Cilium v1.19.4 版本整体重点不是大功能发布,而是围绕稳定性、数据面修复、Cluster Mesh、IPsec/WireGuard、Gateway API、Ingress/L7、BGP、Helm 与依赖更新做集中修补。

Harbor v2.14.4 发布:聚焦会话安全、扫描器 API 与 Docker Hub 适配修复

Harbor 是 CNCF 托管的开源可信云原生制品仓库项目,用于存储、签名和扫描内容,最常见场景是作为企业级容器镜像仓库和 Helm Chart 仓库。它在 Docker Distribution 的基础上增强了安全、身份认证、权限管理和运维管理能力,也能让镜像仓库更靠近构建与运行环境,从而提升镜像分发效率。

Harbor v2.14.4 是一个补丁版本,重点集中在会话机制、扫描器 API、Docker Hub 适配、依赖/基础镜像升级,以及分发实例编辑修复。其中会话相关修复包括修正 SessionRegenerate 的保存参数和生命周期,并避免后台轮询刷新 session TTL,这类改动主要影响登录会话的正确性与安全边界。

技术文章推荐

Kubernetes 之后的新挑战:Agentic AI 正在重塑云原生控制平面

本文介绍了 Kubernetes 之后,云原生基础设施正在面临的新一轮挑战:相比 Kubernetes 主要负责容器、Pod、服务和配置等确定性资源的编排,Agentic AI 带来的问题更加复杂。AI Agent 不只是被调度运行的工作负载,而是能够理解上下文、调用工具、执行任务并代表用户做出决策的智能组件,因此传统云原生体系中“状态可预测、行为可复现、结果可观测”的假设正在被打破。

作者进一步指出,未来平台工程的重点将从“管理应用运行状态”转向“治理智能体行为”。企业不仅要知道服务是否正常运行,还要知道 AI Agent 被授权做了什么、调用了哪些工具、基于什么上下文做出判断、是否经过审批,以及整个过程是否可追踪、可审计。Kubernetes 仍然是重要基础设施,但真正困难的问题已经上移到 AI Agent 的权限控制、行为观测、安全治理和新一代控制平面建设上。

K8s 之父谈 AI 时代基础设施演进:Kubernetes 如何适配 GPU、AI 工作负载与代码生成浪潮

本文介绍了 Kubernetes 联合创始人 Brandon Burns 对 AI 时代基础设施变化的观察:AI 并不是要推翻 Kubernetes,而是在倒逼它补齐面向 GPU、高速互联、训练任务、Checkpoint、数据缓存等新型工作负载的能力。文章指出,Kubernetes 最初更偏向在线业务调度,而 AI 训练和推理带来了 batch workload、时间切片、Gang Scheduling、DRA 等新需求,这使 Kubernetes 需要在调度、资源抽象和硬件协同方面继续演进。

更值得关注的是,文章把 AI 对基础设施和工程师工作的影响讲得非常具体:一方面,AI 应用的运维不能只看 HTTP 状态码和错误率,还要关注回答质量、用户反馈、Prompt 测试集、灰度实验等更复杂的质量指标;另一方面,AI 代码生成会让“写代码”越来越快,但真正的瓶颈会转向 Code Review、测试、Spec 和验证体系。Burns 认为,未来每个工程师都需要被明确训练代码审查能力,而不是只依赖资深工程师把关;长期看,编程语言甚至可能向“更适合 AI 生成和验证”的方向演化。

CNCF 警告:仅靠 Kubernetes 不足以保障 LLM 工作负载的安全性

本文介绍了 CNCF 对 Kubernetes 运行 LLM 工作负载安全性的最新提醒:Kubernetes 虽然能够提供容器编排、资源隔离、访问控制和网络策略等基础能力,但这些能力主要面向传统云原生应用,并不能直接识别提示词注入、模型幻觉、敏感数据泄露、工具滥用等 AI 特有风险。因此,企业不能简单认为“LLM 部署在 Kubernetes 上”就天然具备完整安全保障。

本文还强调了 LLM 工作负载与普通应用的本质差异:LLM 不只是被动执行代码的服务,而是可能根据输入内容生成决策、调用工具、访问数据并影响业务流程的智能组件。这篇文章的关键提醒是,企业需要在 Kubernetes 原有安全体系之上,继续引入提示词防护、输出过滤、权限最小化、运行时监控、审计追踪和人工审核等 AI 专属安全机制,从而构建更完整的 LLM 安全治理体系。

开源项目推荐

ClawManager

ClawManager 是一个开源的 Kubernetes 原生的 AI Agent 实例管理控制平面,主要用于在 Kubernetes 上统一创建、运行和治理多个 AI Agent 工作空间。它提供 AI Gateway、Agent Control Plane 和 Resource Management 三层能力:一方面可以通过统一网关管理模型访问、审计追踪、成本统计和风险控制,另一方面可以对 Agent 实例进行注册、心跳、状态同步、命令下发和运行时可观测管理。

kelos

Kelos 是一个开源的 AI 编码 Agent 编排框架,用于把 Claude Code、OpenAI Codex、Gemini、Cursor、OpenCode 等编码 Agent 作为 Kubernetes 资源来运行和管理。它可以将提示词、模型、插件、MCP Server、Git 工作区、凭据和 Pod 资源统一声明,并通过 GitHub Issue/PR、Webhook、Jira、Linear、定时任务等触发 Agent 自动执行。项目适合构建可审计、可扩展、GitOps 化的 AI 编码自动化平台。

matrixhub

MatrixHub 是一个开源、自托管的 AI 模型仓库,可作为 Hugging Face 的私有化替代方案,面向企业级大规模推理场景。它支持模型按需缓存、私有分发、多区域同步、RBAC 多租户、审计日志、内容签名和恶意文件扫描,并针对 vLLM、SGLang 等推理框架优化模型分发性能。

AIBrix

AIBrix 是 vLLM 项目下的开源云原生大模型推理基础设施框架,面向企业级 LLM 服务的部署、管理、扩缩容与成本优化。它提供可插拔的推理基础组件,支持在 Kubernetes 中运行 vLLM 等推理引擎,围绕大规模推理场景提供智能路由、自动扩缩容、LoRA 管理、分布式 KV Cache、模型管理、GPU 资源优化和故障诊断等能力。

关于KubeSphere

KubeSphere ( https://kubesphere.io )是在 Kubernetes 之上构建的容器平台,提供全栈的 IT 自动化运维的能力,简化企业的 DevOps 工作流。

KubeSphere 已被 Aqara 智能家居、本来生活、东方通信、微宏科技、东软、新浪、三一重工、华夏银行、四川航空、国药集团、微众银行、紫金保险、去哪儿网、中通、中国人民银行、中国银行、中国人保寿险、中国太平保险、中国移动、中国联通、中国电信、天翼云、中移金科、Radore、ZaloPay 等海内外数万家企业采用。KubeSphere 提供了开发者友好的向导式操作界面和丰富的企业级功能,包括 Kubernetes 多云与多集群管理、DevOps (CI/CD)、应用生命周期管理、边缘计算、微服务治理 (Service Mesh)、多租户管理、可观测性、存储与网络管理、GPU support 等功能,帮助企业快速构建一个强大和功能丰富的容器云平台。

posted @ 2026-05-22 16:37  kubesphere  阅读(6)  评论(0)    收藏  举报