英伟达DGX Spark迷你AI超算深度解析
产品概述
某机构将其期待已久的DGX Spark称为“世界上最小的AI超级计算机”。这款基于Arm架构的迷你PC售价在3000至4000美元之间(具体取决于配置和OEM厂商),但它的优势并非在于速度。
该设备远非某机构产品线中最快的GPU。在大语言模型推理、微调甚至图像生成方面,它都无法击败RTX 5090,更不用说游戏性能了。然而,DGX Spark以及基于GB10的一系列系统能够运行市场上5090或其他任何消费级显卡根本无法处理的模型。
核心技术特点
内存架构
Spark配备了128GB内存,这是某机构工作站GPU中容量最大的。某机构通过使用LPDDR5x实现了这一点,虽然与50系列使用的GDDR7相比速度较慢,但这个小盒子能够对高达2000亿参数的模型进行推理,或对高达700亿参数的模型进行微调(均为4位精度)。
通常情况下,这类工作负载需要多个高端GPU,成本达数万美元。通过用少量性能和大量带宽换取纯粹容量,某机构构建了一个系统,它可能在任何单一任务上都不是最快的,但能够运行所有任务。
芯片设计
Spark的核心是某机构的GB10系统芯片,本质上是该公司价值数百万美元机架系统中Grace Blackwell超级芯片的缩小版。
该芯片包含两个芯片:一个用于CPU,一个用于GPU——均基于某制造商的3nm工艺技术构建,并使用该制造商的高级封装技术粘合。
与更大的兄弟产品不同,GB10不使用Arm的Neoverse核心。该芯片是与某公司合作构建的,具有20个Arm核心——10个X925性能核心和10个Cortex A725效率核心。
GPU基于与某机构50系列其他产品相同的Blackwell架构。该AI硬件供应商声称,图形处理器能够提供1 petaFLOP的FP4计算能力。
硬件规格
规格类别 | 详细参数 |
---|---|
架构 | Grace Blackwell |
GPU | Blackwell架构 |
CPU | 20核Arm(10x X925 + 10x A725) |
CUDA核心 | 6,144 |
张量核心 | 192个第五代 |
RT核心 | 48个第四代 |
张量性能 | 1 petaFLOP稀疏FP4 |
系统内存 | 128GB LPDDR5x 8533 MT/s |
内存总线 | 256位 |
内存带宽 | 273 GBps |
存储 | 4TB NVMe |
网络 | 1个RJ-45(10GbE) |
尺寸 | 150mm x 150mm x 50.5mm |
性能测试
微调性能
Spark的内存容量对于微调特别有吸引力。即使是像Mistral 7B这样适中的LLM,完整的微调也可能需要超过100GB的内存。
在测试中,Spark以125 teraFLOPS的密集BF16性能,在刚好超过一分半钟的时间内完成了对某机构30亿参数Llama 3.2模型的微调任务。
相比之下,48GB的RTX 6000 Ada(一年前售价约为GB10系统的两倍)在不到30秒内完成了基准测试。
图像生成
在图像生成测试中,DGX Spark在流行的ComfyUI网络GUI中以BF16精度运行某实验室的FLUX.1 Dev。在此精度下,120亿参数模型至少需要24GB显存才能在GPU上运行。
设置为50个生成步骤时,DGX Spark需要约97秒来生成图像,而RTX 6000 Ada只需37秒。
但凭借128GB显存,Spark不仅能运行模型。某机构的文档提供了使用自己的图像微调像FLUX.1 Dev这样的扩散模型的说明。该过程耗时约四小时,占用略超过90GB内存。
LLM推理
对于LLM推理测试,使用了三种最流行的某机构硬件模型运行器:Llama.cpp、vLLM和TensorRT LLM。
所有推理测试均使用4位量化运行,该过程将模型权重压缩到原始大小的约四分之一,同时将其吞吐量提高四倍。
在模型运行器中,Llama.cpp实现了最高的令牌生成性能,在几乎所有场景中都匹配甚至击败了vLLM和TensorRT LLM。
在提示处理方面,TensorRT实现的性能显著优于vLLM或Llama.cpp。
竞争对比
参数 | 某机构DGX Spark | 某机构Jetson Thor | 某中心M4 Max | 某机构Ryzen AI Max+ 395 |
---|---|---|---|---|
操作系统 | DGX OS | ? | MacOS | Windows/Linux |
FP/BF16 TFLOPS | 125 | 250 | ? | 59估计值 |
FP4 TFLOPS | 500 | 1000 | ? | ? |
最大内存容量 | 128GB | 128GB | 128GB | 128GB |
内存带宽 | 273GBps | 273GBps | 546GBps | 256GBps |
运行时 | CUDA | CUDA | Metal | ROCm/HIP |
价格 | $3000-$3999 | $3499 | $3499-$5899 | $1999+ |
总结
DGX Spark是否适合您取决于几个因素。
如果您想要一个小型、低功耗的AI开发平台,同时能够兼任生产力、内容创作或游戏系统,那么DGX Spark可能不适合您。您最好投资于某机构的Strix Halo或某中心的Studio,或者等待几个月直到某机构的GB10超级芯片不可避免地出现在Windows设备中。
但是,如果您的主要重点是机器学习,并且正在市场上寻找相对实惠的AI工作站,那么很少有选项能像Spark一样满足如此多的需求。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
公众号二维码
公众号二维码