基于Crane的云原生降本增效实践:腾讯云的探索与成果

随着云计算的快速发展,云原生技术逐渐成为企业数字化转型的重要驱动力。然而,云资源的利用率问题一直困扰着许多企业。据Flexera发布的《2021云计算市场发展状态报告》显示,30%-35%的云支出被浪费,其中物理机利用率仅为10%,虚拟机利用率为12%,容器化利用率也仅为14%。为了解决这一难题,腾讯云基于Crane进行了云原生降本增效的实践,取得了显著的成果。

一、云原生资源利用现状与挑战

云原生技术的发展带来了去中心化、动态变化和浪费严重等成本管理挑战。随着业务的快速发展,企业的云费用以24%的年增长率快速增加。在这种背景下,提高资源利用率成为企业上云的核心关切。

二、腾讯内部海量自研业务云上成本优化成效

腾讯云通过内部海量自研业务的云上成本优化,实现了总体规模5000万核,累计节省30亿,混部后资源利用率达到65%的显著成果。

三、深入理解Kubernetes的资源管理

为了更好地实现成本优化,腾讯云深入理解了Kubernetes的资源管理。通过分析节点资源、资源分配率和使用率等关键指标,找出资源浪费的根源,从而为成本优化提供依据。

四、Crane助力全面增效降本

腾讯云基于Crane进行了全面的增效降本实践。通过二级调度、干扰检测与低优业务主动回避、节点进程调度与性能隔离等策略,实现了资源利用的精细化调度与稳定性保证。同时,通过一级调度、云原生增强调度、智能预测与弹性等手段,实现了资源优化推荐和负载感知调度。

五、混布技术提升节点资源利用率

腾讯云采用了混布技术,将延迟敏感业务与高吞吐量离线业务混合部署至共享节点,以提升节点资源利用率。通过全维度指标采集、弹性资源回收、干扰判断与主动回避等策略,实现了混布环境下的资源优化。

六、数据驱动的成本分析与成果测算

腾讯云通过数据驱动的成本分析与成果测算,对优化效果进行了评估。基于离线数仓、自定义Spec Watcher捕获workload变动、基于Prometheus Metrics Beats每日凌晨拉取当天业务指标等手段,实现了对业务指标的分析与优化。

七、集群大盘可视化与平台侧优化

腾讯云通过集群大盘可视化、节点容量缩放、节点水位控制等手段,实现了平台侧的优化。这些优化措施有助于提升集群总体利用率和节点利用率,进一步降低成本。

八、内部大规模落地的成效

在腾讯内部自研业务大规模落地的基础上,腾讯云的优化措施部署至数百个Kubernetes集群,管控数百万CPU核。全面上线一个月内,大盘总核数缩减25%,取得了显著的降本增效成果。

总之,腾讯云基于Crane的云原生降本增效实践,不仅提高了资源利用率,降低了成本,还为行业提供了宝贵的经验和参考。随着云原生技术的不断发展,相信未来会有更多的企业加入到这一实践中来,共同推动云计算行业的进步。

posted @ 2025-03-04 17:02  春分十里敲代码  阅读(34)  评论(0)    收藏  举报