云原生周刊:AI 正重塑数据层、安全层与基础设施层

云原生热点

Fluid 晋升 CNCF 孵化项目:加速云原生AI与大数据应用创新

Fluid 是面向 Kubernetes 的云原生数据编排与加速项目,把“数据集”抽象成一等资源,补齐计算与存储之间的鸿沟,支持异构存储接入、缓存加速、动态挂载与无侵入调度,尤其适合 AI、大数据这类数据密集型场景。CNCF技术监督委员会(TOC)于近期正式投票接受 Fluid 作为 CNCF 的孵化项目。

Fluid 项目起源于 2020 年 9 月,由南京大学、阿里云与 Alluxio 社区联合发起,旨在为云原生环境下的数据密集型 AI 应用提供高效、弹性、透明的数据访问能力。2021 年 5 月,Fluid 被 CNCF正式接纳为沙箱项目。自开源以来,Fluid 社区发展迅速,持续发布多个重要版本,在数据缓存弹性伸缩、异构数据源统一接入和应用透明调度等关键能力上取得显著突破,大幅提升了 AI 与大数据工作负载在云原生平台上的运行效率。

Kubescape 4.0 发布:Kubernetes 安全进入“运行时 + AI Agent”新阶段

Kubescape 是一个开源的 Kubernetes 安全平台,覆盖从开发到运行时的整条链路,既能扫描 YAML、Helm Chart、代码仓库、镜像和集群配置中的漏洞与错误配置,也能按 CIS、NSA-CISA、MITRE ATT&CK、SOC 2 等框架做合规检查。

Kubescape 4.0 是一次面向 Kubernetes 安全能力的重要升级:在原有集群、Helm Chart、YAML 和 CI/CD 扫描基础上,把运行时威胁检测和 Kubescape Storage 推进到 GA,前者可基于应用画像监控进程、系统调用、网络、HTTP 和文件系统活动,并将规则与告警以 Kubernetes CRD 方式统一管理,后者则通过聚合 API 存储 SBOM、漏洞清单等安全元数据,减轻 etcd 压力;同时,该版本顺应 AI Agent 在云原生环境中的落地趋势。

Envoy v1.37.1 发布:增强云原生代理的安全性与稳定性

Envoy 是云原生场景里很常见的边缘代理和服务代理,适合放在入口网关、服务间通信链路以及 API 网关等位置使用。官方将它定义为面向现代大规模面向服务架构的通信总线与七层代理,核心能力包括动态服务发现、负载均衡、自动重试、熔断、限流、流量镜像,以及较强的可观测性能力,比如指标、日志、分布式追踪和协议级流量观测。Envoy 现在由 CNCF 托管,已是 Graduated 项目。

Envoy v1.37.1 是一次以稳定性和安全修复为主的补丁版本更新,集中修复了 5 个安全问题,包括 ratelimit 在响应阶段可能触发崩溃、RBAC 多值请求头绕过、带作用域 IPv6 地址时的网络崩溃、JSON 处理中的越界写入,以及下游连接重置后 HTTP decode 方法未被正确阻断等。

技术实践

文章推荐

Harness 发布 Artifact Registry:重塑 DevSecOps 制品管理与供应链治理

本文介绍了 Harness 正式发布通用可用的 Artifact Registry,将制品仓库能力直接嵌入其软件交付平台,不再把制品管理当作独立基础设施,而是与 CI/CD、治理和安全策略统一到同一套 DevSecOps 流程中,实现制品的存储、扫描、准入、推广和审计闭环;该产品支持 Docker、Helm、Python、npm、Go、NuGet 等多种制品生态,并引入 Dependency Firewall,在制品进入仓库时就校验其依赖、漏洞、许可证和来源可信度,配合 Trivy 扫描、RBAC、审计追踪和生命周期管理,把制品仓库从“存储系统”升级为软件供应链中的安全治理控制点,也反映出 DevOps 工具正从单纯交付效率导向,走向更强调供应链安全与全流程可追溯的方向。

通过在单个服务器上塞入 100 万个沙箱来解决 AI 基础设施规模问题

本文介绍了 Unikraft 联合创始人兼 CEO Felipe Huici 在 QCon London 2026 上展示的一项极具冲击力的 AI 基础设施实践:通过 unikernel、Firecracker、VM 快照和 scale-to-zero 机制,在一台通用服务器上实现了 100 万个可休眠微型虚拟机沙箱的承载,并在请求到来时以毫秒级恢复响应,从而尝试同时解决 AI Agent 运行场景下对强隔离、高密度和低延迟的三重需求;文章回顾了团队从 ClickOS 到 Unikraft 的技术演进,解释了为何其选择以更小可信计算基为核心的 VM/unikernel 路线,而不是传统容器方案,并进一步介绍了差分快照、压缩存储、虚拟 kubelet 集成以及将密钥保留在宿主机代理侧等设计,说明云基础设施未必只能在性能、规模与隔离之间三选二,而是有机会通过系统级重构同时逼近三者最优。

一次 Kubernetes 配置更改每年为 Cloudflare 节省 600 个工程工时

本文介绍了 Cloudflare 如何通过一次看似微小的 Kubernetes 配置优化,大幅削减内部平台的工程等待时间:问题出在其运行 Terraform 的 Atlantis 实例重启过慢,每次重启都会因持久卷权限递归变更而耗时约 30 分钟,最终定位到 Kubernetes securityContextfsGroupChangePolicy 的默认行为带来的性能瓶颈;在将其调整为 OnRootMismatch 后,Atlantis 重启时间从约 30 分钟降到约 30 秒,每月减少近 50 小时的阻塞与误告警处理时间,折合每年约节省 600 小时工程投入。文章借此指出,Kubernetes 的安全默认值在小规模场景下通常合理,但在大规模持久化工作负载中可能逐渐演变为隐性性能负担,因此有必要定期审视 fsGroupfsGroupChangePolicy 等配置对系统效率的实际影响。

开源项目推荐

Harness

Harness 是一个开源开发者平台,集代码托管、自动化 DevOps 流水线、云端开发环境(Gitspaces)和制品仓库于一体,目标是为团队提供端到端的软件交付能力。它可视作 Drone 的下一代演进版,从单一 CI 工具扩展为更完整的一体化 DevOps 平台。

Hive

Hive 是一个面向生产环境的 AI Agent 运行时框架,强调把智能体从 Demo 推向真实业务:开发者用自然语言描述目标后,系统可生成多智能体执行图,并提供状态隔离、检查点恢复、成本控制、可观测性、人类介入和自动演进能力,适合需要长期运行、可审计和高可靠交付的智能体应用。

Trellis

Trellis 是一个面向 AI 辅助编程的开源框架与工具集,主要服务于 Claude Code、Cursor 等开发场景。它通过规范化工作流、自动上下文注入、项目知识库和会话记录机制,帮助团队把 AI 编码从“临时对话”变成更可复用、可协作、可持续演进的工程流程。

Clanker

Clanker 是一个面向云基础设施运维的 AI CLI Agent,可在 AWS、GCP、Cloudflare 等环境中理解自然语言指令,帮助用户查询现有资源状态,并生成或执行基础设施与部署计划。它同时支持以 MCP 形式暴露工具接口,定位更偏“自治式系统工程助手”,适合云资源管理、环境巡检和自动化交付场景。

posted @ 2026-04-08 18:10  kubesphere  阅读(3)  评论(0)    收藏  举报