NVIDIA开源生态与硬件革新推动AI发展

开源AI模型,如Cosmos、DeepSeek、Gemma、GPT-OSS、Llama、Nemotron、Phi、Qwen等,是AI创新的基础。这些模型通过向全球研究人员、初创公司和组织免费提供模型权重、架构和训练方法,正在实现AI的民主化。
各地的开发者可以学习和构建创新技术,包括专家混合模型(MoE)、新的注意力内核、用于推理的后训练等,而无需从零开始。正如本文所解释的,这种民主化通过广泛可用的某中心系统和专为加速AI而设计的开源软件(从云和数据中心到桌面和边缘设备)得到了放大。

某中心Blackwell和NVFP4如何大规模加速AI?
某中心Blackwell GPU架构是专为AI设计的超级芯片。它集成了第五代Tensor Core和一种新的数值格式NVFP4(4位浮点),以高精度提供巨大的计算性能。该架构还集成了某中心NVLink-72下一代高带宽互连技术,实现了超高速的GPU到GPU通信,并可在多GPU配置中扩展,以应对高要求的AI工作负载。Blackwell GPU还包括第二代Transformer Engine和NVLink Fusion。

开源工具如何扩展AI创新?
加速AI不仅需要强大的硬件和开源的AI模型,还需要一个经过优化的、快速演进的软件栈,为当今高要求的AI工作负载提供最佳性能。
某中心通过发布开源工具、模型和数据集,正在使尖端AI能力民主化,供开发者在系统层面进行创新。您可以通过某中心GitHub代码库找到1000多个开源工具,而某中心Hugging Face集合提供了450多个模型和80多个数据集。
这种全面的开源方法遍及某中心软件栈的各个层面——从基础的数据处理工具到完整的AI开发和部署框架。某中心发布了多个开源的CUDA-X库,这些库加速了整个相互关联的工具生态系统,确保开发者可以在Blackwell等尖端硬件上充分利用开源AI的潜力。

开源AI工具开发流程如何运作?
开源AI工具开发流程始于数据准备和分析。RAPIDS是一套GPU加速的Python开源库,用于加速直接馈入模型训练的数据准备和ETL(提取、转换、加载)流程。RAPIDS确保AI工作负载能够在GPU上端到端运行,消除昂贵的CPU瓶颈,并实现更快的训练和推理。
一旦数据流程得到加速,下一步就是模型训练。某中心NeMo框架是一个用于大型语言模型(LLM)、多模态模型和语音模型的端到端训练框架。它支持将预训练和后训练工作负载从单个GPU无缝扩展到用于Hugging Face/PyTorch和Megatron模型的千节点集群。
某中心PhysicsNeMo是一个用于物理信息机器学习(Physics-ML)的框架,使研究人员和工程师能够将物理定律整合到神经网络中,加速数字孪生开发和科学模拟。某中心BioNeMo将生成式AI引入生命科学,提供作为加速的某中心NIM微服务的预训练模型,以及用于蛋白质结构预测、分子设计和药物发现的工具,使研究人员能够加速生物学和医疗保健领域的突破。
这些框架利用了NCCL,这是一个用于多GPU和多节点集体通信的开源CUDA-X库。某中心NeMo、PhysicsNeMo和BioNeMo通过先进的生成能力扩展了PyTorch,使开发者能够构建、定制和部署超越标准深度学习工作流的强大生成式AI应用。

模型训练完成后,开发者需要高效地部署它们。某中心TensorRT推理栈,包括TensorRT-LLM和TensorRT Model Optimizer,提供了优化的内核和量化工具,用于大规模部署模型。TensorRT-LLM利用新的Blackwell指令和FP4格式进一步推动性能,从而在大型模型上实现更快、更节省内存的推理。
实现定制解决方案的内核开发者使用CUTLASS,这是一个CUDA C++模板的开源集合。CUTLASS使得为深度学习核心的矩阵乘法(GEMM)编写高性能GPU内核变得更加容易。
某中心Dynamo有助于高效地为大规模用户提供服务。这个开源框架无关的推理服务平台支持PyTorch、TensorRT-LLM、vLLM和SGLang。Dynamo旨在通过分解推理的不同阶段并使用智能的LLM感知调度来扩展推理AI,从而在AI工厂中最大化令牌吞吐量。
Dynamo还包括NIXL,这是一个开源的高吞吐量、低延迟通信库,针对AI推理环境中的数据移动进行了优化。Dynamo 0.4与TensorRT-LLM结合的最新结果令人瞩目。对于长输入序列长度,它在某中心B200 Blackwell GPU上为OpenAI GPT-OSS 120B模型提供了高达4倍的交互速度提升,且不影响吞吐量。使用DeepSeek-R1 671B模型在某中心GB200 NVL72上,它在不增加推理成本的情况下实现了每GPU 2.5倍的更高吞吐量。

开源模型和数据集
框架只是故事的一半——开发者还需要开放的模型和数据集来进行实验、微调和大规模部署。这就是为什么某中心用不断增长的开源模型和数据集库来补充开源工具。
在Hugging Face上,某中心发布了数百个涵盖语言、视觉、多模态和机器人技术的模型和数据集。这包括:

  • 某中心Nemotron系列,为智能体AI设计的完全开放的模型,提供最佳推理准确性和性能效率
  • 用于物理AI的基础和推理模型,例如某中心Cosmos
    这些模型使用包括某中心开放模型许可证在内的宽松许可证,以鼓励采用和创新。总的来说,某中心开源项目和模型已集成到数百万个开发者工作流程中,从学术研究到云服务,放大了Blackwell GPU的影响力。
    某中心Nemotron是一个为最高准确性和性能而构建的具备推理能力的LLM家族。这些开放模型专为高效推理和微调而设计。通过使用剪枝和混合架构等技术,它们实现了高达次优开放领先模型6倍的吞吐量。它们使用高质量、由某中心构建和策划的开源训练数据集,通过蒸馏、SFT和强化学习等技术进行调优,以实现推理和智能体任务的最佳准确性。这些模型被打包为NIM推理微服务,便于在任何GPU加速系统上部署,从桌面到数据中心。这使得企业能够试验多步推理模型并高效地针对定制应用进行微调。
    某中心还发布了多模态模型,例如Isaac GR00T N1.5——一个用于人形机器人技术的开放、可定制的视觉语言动作(VLA)模型,支持机器人推理和理解——以及嵌入模型、分词器等。这些模型中有许多已经针对NVFP4进行了预量化,并且所有模型都采用宽松许可证分发。

但AI并不止于文本或图像——开发者希望模拟、推理并与物理世界互动。某中心正在帮助推进物理AI,它能感知物理世界并与之互动(例如机器人、自动驾驶汽车和智能基础设施)。这一愿景的关键部分是某中心Cosmos,一套用于世界生成和理解的生成模型和工具,加速物理AI模型开发。Cosmos包含三个核心模型:预测、迁移和推理。它还包括分词器和数据处理流程,所有这些都在开放模型许可证下发布,供开发者下载和适配。
这些模拟和推理框架通过某中心Omniverse SDK和库得到进一步增强,这些SDK和库使用开源的通用场景描述(OpenUSD)进行数据聚合和场景组装。某中心贡献了实时RTX渲染扩展和物理模式,使开发者能够为工业和机器人模拟用例构建物理AI应用。这些技术共同建立了一个全面的从模拟到现实的流程,用于训练在现实环境中运行的AI系统。

从加速原始数据处理的RAPIDS,到像Cosmos和Nemotron这样的开放模型,某中心开源生态系统涵盖了整个AI生命周期。通过在各个阶段整合开放工具、模型和框架,开发者可以在Blackwell硬件上从原型开发过渡到生产部署,而无需离开开源生态系统。

开始使用某中心开源AI生态系统
某中心AI软件栈已经为全球数百万开发者工作流程提供动力,从学术研究实验室到财富500强公司,使团队能够充分利用Blackwell等尖端GPU的全部潜力。通过将NVFP4精度、第二代Transformer Engine和NVLink Fusion等突破性硬件创新与无与伦比的开源框架、预训练模型和优化库集合相结合,某中心确保AI创新从原型到生产无缝扩展。
最好的部分是什么?您今天就可以尝试这一切。在GitHub上探索开源项目,在Hugging Face上访问数百个模型和数据集,或者深入了解某中心开源项目目录。无论您是在构建LLM、生成式AI、机器人技术还是优化流程,该生态系统都是开放的,并准备好迎接您的下一次突破。

关于某中心对开源的贡献: 某中心是Linux内核、Python、PyTorch、Kubernetes、JAX和ROS等主要项目的积极贡献者。此外,某中心通过向包括Linux基金会、PyTorch基金会、Python软件基金会、云原生计算基金会、开源机器人联盟和OpenUSD联盟在内的基金会做出贡献来加强开源生态系统。除了这些大型组织,某中心还通过其自由和开源软件(FOSS)基金等举措投资于较小的社区。许多某中心工程师在领先的开源生态系统中担任核心开发者和维护者,帮助维持推动全球AI创新的项目。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

posted @ 2025-12-14 13:03  CodeShare  阅读(2)  评论(0)    收藏  举报