数据中心“拥抱”ARM架构,为何如此艰难?
微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
作为一名ARM芯片推崇者。在过去很长的一段时间,我一直在思考一个问题:ARM处理器为什么这么多年在数据中心一直难有作为?
最近,一个喜欢做各种尝试的工程师朋友找到我,他最近在企业采用ARM架构处理方面遇到了一些问题,当他想将ARM投入到生产环境中遇到了各种挑战。
添加图片注释,不超过 140 字(可选)
今天我将我们的一些思考分享出来,一起来探讨当下企业数据中心采用Arm面临的诸多挑战。
01 现有数据中心的兼容性难题
对于现在大多数企业来说,大多运行是x86计算集群,英特尔至强(Xeon)处理器在现有数据中心中占据主导地位。
尽管AMD EPYC可能会在2025 - 2027年之间在某些关键指标上超越英特尔至强,但从现有数据中心现状的角度来看,至强仍然是王者,并且在未来几年仍将保持这一地位。
添加图片注释,不超过 140 字(可选)
这就带来一个问题,ARM处理器跟现有基础设施的兼容问题。
可能有人会说,为什么兼容性如此重要?想象一下,你有一辆已经开了多年的汽车,突然有一天,你决定换一个新的发动机。但是,这个新发动机和你的汽车完全不兼容,你不仅需要重新调整整个车辆的结构,还要重新学习驾驶方式。这听起来是不是很麻烦?
当前的企业数据中心也面临同样的问题。大多数企业已经投入了大量资源在现有的x86架构上,从软件到硬件,从操作系统到应用程序,一切都在这个架构上运行得井井有条。如果突然切换到ARM架构,就像换了一个全新的发动机,不仅需要重新调整硬件,还需要重新部署软件,甚至可能需要重新培训员工。
另外还有一个原因就是,之前宣称的ARM节能这个优点也不行了。
多年前,很多人以节能为由想推动企业使用ARM服务器,尤其是在英特尔失去其制造优势给台积电(TSMC)之后。
添加图片注释,不超过 140 字(可选)
但AMD EPYC自从使用与台积电相同的领先制造技术,这限制了通过切换到ARM所能获得的节能效果。如今,节能的理由正在成为一个可以忽略不计的误差。如果你在一台主流的1 - 1.2kW x86计算服务器上节省了10 - 50W,那么在x86计算服务器性能更好的情况下,这已经不是一个很大的收益了!
举个例子,假设你有一台功率为1kW的服务器,通过切换到ARM架构,你最多能节省50W的功耗。这意味着你一年最多能节省约438kWh的电能。按照每度电0.5元的电价计算,你一年最多能节省219元。这对于一台服务器来说,实在是微不足道。
更何况,为了实现这个小小的节能效果,你可能需要投入大量的时间和精力去重新部署系统,这显然是不划算的。
02 硬件选择的“瓶颈”
其实,即使你对在AI背景下节省微不足道的功耗感到兴奋,部署ARM服务器也并非易事。
目前,你可以从几乎所有供应商那里获得NVIDIA Grace服务器,但这些服务器的双CPU模块最多只有144个核心,你必须在较低容量的固定内存与较高带宽之间,或者较高容量的固定内存与较低带宽之间做出选择。
添加图片注释,不超过 140 字(可选)
而且大多数主要供应商都会向你出售NVIDIA ARM解决方案,但NVIDIA目前并不专注于在企业中支持它们用于通用工作负载。
目前,对于企业来说,获取现代ARM CPU的选择非常有限。AmpereOne可能是最好的选择,但如果你想从戴尔(Dell)、联想(Lenovo)或惠普企业(HPE)那里找到一台服务器,那将是一项艰巨的任务。
更难的是,不仅找到硬件,而且你的销售代表是否会优先销售AmpereOne服务器?很可能不会。从顶级服务器供应商那里,真正可用的选项只有像Supermicro MegaDC ARS - 211M - NR这样的产品。然而,即使你想要不同的形式因素、CPU配置等,你仍然会陷入困境。
举个例子,假设你是一家大型企业的IT负责人,你需要采购一批新的服务器来支持企业的业务。你发现AmpereOne服务器看起来不错,但当你联系戴尔、联想或惠普企业时,他们却告诉你没有现货,或者需要等很长时间才能拿到货。这显然会让你感到非常沮丧。
相比之下,x86服务器的供应就非常充足,你可以轻松地从多个供应商那里获得所需的硬件。
另外,ARM硬件的性能也是一个“短板”。NVIDIA Grace Arm Neoverse V2核心已经开始变得有些过时了。在每个节点的基础上,大多数情况下,你选择更高核心数的英特尔或AMD解决方案会更好。这是因为NVIDIA Grace Arm Neoverse V2核心在性能上已经无法满足企业对通用工作负载的需求。
选择ARM硬件,这就像你选择了一辆小型汽车去参加赛车比赛,虽然它看起来很酷,但在速度和性能上却无法和其他专业的赛车相比。
03 无法获取云服务一样对等的功能
混合多云是当下热门话题,未来也将持续如此。然而,想实现跟云服务功能对等的功能是一个非常难的问题。
亚马逊有其自研的Graviton芯片,仅在其云服务中使用。像甲骨文这样的公司有其Ampere Altra和AmpereOne实例。其他一些提供商则混合使用Ampere Altra和定制的ARM处理器。但每个选项都有非常不同的能力,如果你有大量浮点运算的应用程序,那么这些并不是Ampere的设计优化点。如果你想要一些许多人都认为理所当然的简单功能,比如嵌套虚拟化,那么你就不想在Ampere Altra(Max)平台上运行。
添加图片注释,不超过 140 字(可选)
云服务提供商声称这些芯片成本更低,但这在一定程度上避开了超大规模客户谈判定价的方式。超大规模客户非常精明,他们可以计算硅片面积、建立模型以计算制造硅片的产量和成本,加上封装等成本,从而得出制造芯片的成本。然后他们会为芯片供应商提供一定的利润率,这就是他们购买芯片的价格。
另外,云服务提供商采用ARM架构还有“锁定客户”的价值。实际上,我们在超大规模云定价中看到的ARM处理器的折扣被用于不同的目的。
云实例定价中不仅包含芯片的价格。相反,云服务提供商知道每个实例都有一个附加率与其他服务相关联。如果一个网络应用程序在云中使用计算实例构建,它通常会附加存储、备份存储、云出口带宽等服务。因此,获得一个计算实例意味着云服务提供商可以围绕该实例销售更多服务。
而且这也为云服务提供商带来了另一个好处。如果没有真正的企业硬件供公司迁移实例,那么实际上就没有合法的方法可以下载实例映像,并在你从主要供应商购买的本地服务器上启动它。如果你使用的是x86架构,那么这将不是问题,因为有许多选项可以在本地运行。
云服务提供商知道这一点,因此ARM成为了一个“偏远酒店”,酒店的服务很好,价格也很便宜,但你却无法离开这家酒店,因为外面没有其他地方可以去。
04 软件支持的“短板”
从软件角度来看,世界被分为“云原生”和许多许可软件包。在云原生方面,如果你想在ARM应用堆栈上运行WordPress,那么如今这已经非常容易了。然而,在企业级方面,推动ARM的动力却并不足。
如果企业无法购买ARM服务器,那么它们就无法部署。如果没有ARM的安装基础,那么现有的应用程序将无法在ARM上运行。由于既没有短期的ARM服务器解决方案,也没有ARM的安装基础,因此对ARM的支持动力并不大。
这是一个恶性循环。如果没有软件支持,那么为什么我要要求我的服务器OEM制造并销售给我ARM服务器呢?如果没有这些服务器部署,那么为什么ISV(独立软件供应商)会关心支持ARM呢?
这就像你开了一家餐厅,如果你发现大多数顾客都喜欢吃中餐,而很少有人喜欢吃西餐,那么你可能会选择专注于中餐的开发,而不是西餐。
另外,许可证问题更是让企业“头疼”。ARM服务器供应商乐于谈论云原生应用程序,因为通常这些应用程序没有许可证费用。然而,假设你是企业客户,并且像许多企业一样,使用微软Windows Server。假设你可以获得支持的本地Windows Server的ARM版本。那么你需要为它获得许可证。
目前,它是按核心数量许可的。对于按物理核心许可的产品,像SMT(同时多线程)和每个核心的最大性能等特性要好得多。如果你按核心数量付费,那么大多数人会更倾向于一个SMT核心,其性能相当于两个或更多低功耗核心。
05 朋友的“实践与抉择”
这个朋友其实一直对运行不同架构的服务器持开放态度,但最终还是放弃了采用ARM架构的计划。原本计划用ASRock Rack的Ampere Altra服务器替换EPYC 7001硬盘节点,但最终因为Proxmox VE没有ARM版本,以及担心兼容性和恢复虚拟机的问题,选择了ASRock Rack AMD EPYC 8004 Siena平台。
从管理的角度来看,朋友对运行ARM服务器已经完全习惯了。然而,购买用于部署的ARM服务器的选择有限,虚拟化平台没有ARM版本,可能会遇到一些兼容性问题,这些问题并不难解决,但迁移并不是像关闭一个虚拟机然后在ARM服务器上运行它那么简单。
最终,即使运行ARM可能会因为客户有大量的零部件库存而成本大幅降低,但感觉这仍然是一个错误的决定,因为它会将部署分成两个不同的池。这就像你买了一辆新车,却发现它没有你想要的某些功能,这显然会让你感到非常沮丧。
最终,朋友选择了ASRock Rack AMD EPYC 8004 Siena平台。这个平台不仅兼容性强,而且性能也很出色。虽然它的核心数量可能不如ARM服务器那么多,但它的每个核心的性能都很高,这使得它在处理复杂任务时表现出色。此外,这个平台还支持Proxmox VE,这使得朋友可以轻松地管理和部署虚拟机。
06 最后的思考
通过跟朋友这次沟通,我意识到企业数据中心采用Arm架构面临的挑战是多方面的,包括现有基础设施的兼容性、硬件的限制、云服务功能对等性、软件支持和许可证问题等。这些挑战使得企业在采用Arm架构时需要谨慎考虑,而朋友的经历也反映了这些问题在实际应用中的影响。
希望这篇文章能够帮助大家更好地理解企业数据中心采用Arm架构的困难,以及为什么企业在选择服务器架构时需要综合考虑各种因素。
微信视频号:sph0RgSyDYV47z6
快手号:4874645212
抖音号:dy0so323fq2w
小红书号:95619019828
B站1:UID:3546863642871878
B站2:UID: 3546955410049087
参考文献链接
人工智能芯片与自动驾驶

浙公网安备 33010602011771号