摘要:
为了满足数据中心算力需求,谷歌在 2014 年开始研发基于特定领域架构(Domain-specific Architecture,DSA)的 TPU(Tensor Processing Unit),专门为深度学习任务设计的定制硬件加速器,加速谷歌的机器学习工作负载,特别是训练和推理大模型。 Davi 阅读全文
posted @ 2024-12-11 21:51
无尽玩AI
阅读(40)
评论(0)
推荐(0)
摘要:
从技术的角度重新看英伟达生态,有很多值得借鉴的方面。本文将主要从流水编排、SIMT 前端、分支预测和交互方式等方面进行分析,同时对比 DSA 架构,思考可以从英伟达 CUDA 中借鉴的要点。 英伟达生态的思考点 从软件和硬件架构的角度出发,CUDA 和 SIMT 之间存在一定的关系,而目前 AI 芯 阅读全文
posted @ 2024-12-11 21:51
无尽玩AI
阅读(35)
评论(0)
推荐(0)
摘要:
前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析,结合英伟达 CUDA 实现对 SIMD 和 SIMT 进行了对比,本文将以英伟达 GPU 为例,讲解 GPU 的编程模型。 GPU 编程模型 CUDA 英伟达公司于 2007 年发布了 CUDA,支持编程人员利用更为通用的方式对 阅读全文
posted @ 2024-12-11 21:50
无尽玩AI
阅读(37)
评论(0)
推荐(0)
摘要:
前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析,结合 NVIDIA CUDA 实现对 SIMD 和 SIMT 进行了对比,本文将对不同并行的编程方式进行讲解,以英伟达 GPU 为例,讲解 GPU 的编程模型。 实现并行的编程方式 从指令级别的执行方式来看,一共有三种不同的编程模 阅读全文
posted @ 2024-12-11 21:50
无尽玩AI
阅读(109)
评论(0)
推荐(0)
摘要:
为了进一步探讨 SIMD/SIMT 与 AI 芯片之间的关系,本文将详细介绍 SIMD 单指令多数据和 SIMT 单指令多线程的计算本质,以及对 NVIDIA CUDA 底层实现 SIMD/SIMT 的原理进行讲解。 SIMD 计算本质 SIMD 是对多个进行同样操作的处理元素同时进行同等的计算操作 阅读全文
posted @ 2024-12-11 21:49
无尽玩AI
阅读(84)
评论(0)
推荐(0)
摘要:
本篇幅主要探讨 SIMD 和 SIMT 的主要区别与联系,SIMT 与 CUDA 编程之间的关系,并且会讨论 GPU 在 SIMT 编程本质,SIMD、SIMT 与 DSA 架构,DSA 架构的主要形态。目前已经有大量的 AI 芯片研发上市,但是如何开发基于硬件的编译栈与编程体系,让开发者更好地使用 阅读全文
posted @ 2024-12-11 21:49
无尽玩AI
阅读(29)
评论(0)
推荐(0)
摘要:
NHWC 的数据排布方式更适合多核 CPU 运算, NCHW 的数据排布方式更适合 GPU 并行运算。那么接下来让我们了解一下在华为昇腾的 NPU 中,这种特征图的存储方式。 截止到 2024 年,华为昇腾在私有格式的数据处理和特殊的数据形态越来越少,主要是得益于 AI 编译器和软件的迭代升级,更加 阅读全文
posted @ 2024-12-11 21:48
无尽玩AI
阅读(133)
评论(0)
推荐(0)
摘要:
本文将深入介绍昇腾 AI 处理器的核心单元——AI Core,以及其背后的达芬奇架构。昇腾 AI 处理器是华为针对 AI 领域设计的专用处理器,其核心 AI Core 采用了特定域架构(Domain Specific Architecture,DSA),专门为深度学习算法中常见的计算模式进行优化。 阅读全文
posted @ 2024-12-11 21:47
无尽玩AI
阅读(151)
评论(0)
推荐(0)
摘要:
本文将会介绍华为昇腾 AI 处理器的架构与卷积加速原理。昇腾 AI 处理器是华为基于达芬奇架构专为AI计算加速而设计的处理器,它支持云边端一体化的全栈全场景解决方案,具有高能效比和强大的 3D Cube 矩阵计算单元,支持多种计算模式和混合精度计算。 昇腾 AI 处理器的架构包括了 AI Core、 阅读全文
posted @ 2024-12-11 21:47
无尽玩AI
阅读(211)
评论(0)
推荐(0)
摘要:
昇腾计算的基础软硬件是产业的核心,也是 AI 计算能力的来源。华为,作为昇腾计算产业生态的一员,是基础软硬件系统的核心贡献者。昇腾计算软硬件包括硬件系统、基础软件和应用使能等。 而本文介绍的 AI 系统整体架构(如图所示),则是对应与昇腾 AI 产业的全栈架构较为相似。因此这里以昇腾计算产业作为例子 阅读全文
posted @ 2024-12-11 21:46
无尽玩AI
阅读(132)
评论(0)
推荐(0)
摘要:
中科寒武纪科技股份有限公司成立于 2016 年 3 月 15 日,其名字 Cambricon 是由 Cambrian(寒武纪)和 Silicon(硅)组合成。企业使命是:为客户创造价值,成为持续创新的智能时代领导者,企业愿景是让机器更好地理解和服务人类。寒武纪提供云边端一体、软硬件协同、训练推理融合 阅读全文
posted @ 2024-12-11 21:46
无尽玩AI
阅读(243)
评论(0)
推荐(0)
摘要:
TPU v4 和 TPU v3 中间相差了四年,在这四年之间,谷歌即使发布了许多对于业界非常重要的研究成果,但是在 TPU 的正代芯片上却没有什么更新。实际上,在 2018 年的 TPU v3 之后,谷歌花了更多的精力在面向大众的芯片上,例如谷歌 Tensor、Pixel 手机系列里的各种处理单元等 阅读全文
posted @ 2024-12-11 21:43
无尽玩AI
阅读(91)
评论(0)
推荐(0)
摘要:
TPU v3 vs. TPU v2 TPU v3 实际上就是 TPU v2 的增强版。TPU v3 相比 TPU v2 有约 1.35 倍的时钟频率、ICI 贷款和内存带宽,两杯 MXU 数量,峰值性能提高 2.7 倍。在同样使用 除了显眼的蓝色外,相比于 TPU v2,TPU v3 在只增大 10 阅读全文
posted @ 2024-12-11 21:43
无尽玩AI
阅读(85)
评论(0)
推荐(0)
摘要:
在 2017 年,谷歌更新了他们的 TPU 序列。谷歌将这一代 TPU 称之为 “用于训练神经网络的特定领域超级计算机”,那么显而易见,相比于专注于推理场景的 TPU v1,TPU v2 将自己的设计倾向放到了训练相关的场景。如果回顾历史,在 2017 年前后,深度学习跨时代的工作如雨后春笋般涌现, 阅读全文
posted @ 2024-12-11 21:42
无尽玩AI
阅读(71)
评论(0)
推荐(0)
摘要:
本文深入探讨了谷歌 TPU v1 的架构和设计原理。我们将解析 TPU v1 芯片的关键元素,包括 DDR3 DRAM、矩阵乘法单元(MXU)、累加器和控制指令单元。重点介绍脉动阵列(Systolic Array)的工作原理,它是 TPU 的核心,通过数据的流水线式处理实现高效的矩阵乘法计算。此外, 阅读全文
posted @ 2024-12-11 21:42
无尽玩AI
阅读(239)
评论(0)
推荐(0)
摘要:
在本文中,我们将深入探讨谷歌的 Tensor Processing Unit(TPU)的发展历程及其在深度学习和 AI 领域的应用。TPU 是谷歌为加速机器学习任务而设计的专用集成电路(ASIC),自首次推出以来,TPU 经历了多次迭代升级,包括 TPU v1、v2、v3 和 v4,以及 Edge 阅读全文
posted @ 2024-12-11 21:41
无尽玩AI
阅读(190)
评论(0)
推荐(0)
摘要:
在当今的高性能计算领域,英伟达的 GPU 技术无疑是一颗璀璨的明星。随着 AI 和机器学习技术的飞速发展,对于计算能力的需求日益增长,GPU 之间的互联互通变得尤为重要。在这样的背景下,英伟达推出了 NVLink 协议,以及基于此技术的多 GPU 互联解决方案——NV Switch。 本文将深入探讨 阅读全文
posted @ 2024-12-11 21:40
无尽玩AI
阅读(234)
评论(0)
推荐(0)
摘要:
随着 AI 技术的飞速发展,大模型的参数量已经从亿级跃升至万亿级,这一变化不仅标志着 AI 的显著提升,也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型,需要依赖于大规模的 GPU 服务器集群,它们通过高速网络相互连接,以便进行快速、高效的数据交换。但是 阅读全文
posted @ 2024-12-11 21:40
无尽玩AI
阅读(421)
评论(0)
推荐(1)
摘要:
在进入大模型时代后,大模型的发展已成为 AI 的核心,但训练大模型实际上是一项比较复杂的工作,因为它需要大量的 GPU 资源和较长的训练时间。 此外,由于单个 GPU 工作线程的内存有限,并且许多大模型的大小已经超出了单个 GPU 的范围。所以就需要实现跨多个 GPU 的模型训练,这种训练方式就涉及 阅读全文
posted @ 2024-12-11 21:39
无尽玩AI
阅读(44)
评论(0)
推荐(0)
摘要:
Tensor Core 是用于加速深度学习计算的关键技术,其主要功能是执行神经网络中的矩阵乘法和卷积运算。通过利用混合精度计算和张量核心操作,Tensor Core 能够在较短的时间内完成大量矩阵运算,从而显著加快神经网络模型的训练和推断过程。具体来说,Tensor Core 采用半精度(FP16) 阅读全文
posted @ 2024-12-11 21:37
无尽玩AI
阅读(235)
评论(0)
推荐(0)

浙公网安备 33010602011771号