摘要:
为了满足数据中心算力需求,谷歌在 2014 年开始研发基于特定领域架构(Domain-specific Architecture,DSA)的 TPU(Tensor Processing Unit),专门为深度学习任务设计的定制硬件加速器,加速谷歌的机器学习工作负载,特别是训练和推理大模型。 Davi 阅读全文
posted @ 2024-12-11 21:51
无尽玩AI
阅读(48)
评论(0)
推荐(0)
摘要:
从技术的角度重新看英伟达生态,有很多值得借鉴的方面。本文将主要从流水编排、SIMT 前端、分支预测和交互方式等方面进行分析,同时对比 DSA 架构,思考可以从英伟达 CUDA 中借鉴的要点。 英伟达生态的思考点 从软件和硬件架构的角度出发,CUDA 和 SIMT 之间存在一定的关系,而目前 AI 芯 阅读全文
posted @ 2024-12-11 21:51
无尽玩AI
阅读(44)
评论(0)
推荐(0)
摘要:
前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析,结合英伟达 CUDA 实现对 SIMD 和 SIMT 进行了对比,本文将以英伟达 GPU 为例,讲解 GPU 的编程模型。 GPU 编程模型 CUDA 英伟达公司于 2007 年发布了 CUDA,支持编程人员利用更为通用的方式对 阅读全文
posted @ 2024-12-11 21:50
无尽玩AI
阅读(46)
评论(0)
推荐(0)
摘要:
前面的文章对 AI 芯片 SIMD 和 SIMT 计算本质进行了分析,结合 NVIDIA CUDA 实现对 SIMD 和 SIMT 进行了对比,本文将对不同并行的编程方式进行讲解,以英伟达 GPU 为例,讲解 GPU 的编程模型。 实现并行的编程方式 从指令级别的执行方式来看,一共有三种不同的编程模 阅读全文
posted @ 2024-12-11 21:50
无尽玩AI
阅读(121)
评论(0)
推荐(0)
摘要:
为了进一步探讨 SIMD/SIMT 与 AI 芯片之间的关系,本文将详细介绍 SIMD 单指令多数据和 SIMT 单指令多线程的计算本质,以及对 NVIDIA CUDA 底层实现 SIMD/SIMT 的原理进行讲解。 SIMD 计算本质 SIMD 是对多个进行同样操作的处理元素同时进行同等的计算操作 阅读全文
posted @ 2024-12-11 21:49
无尽玩AI
阅读(92)
评论(0)
推荐(0)
摘要:
本篇幅主要探讨 SIMD 和 SIMT 的主要区别与联系,SIMT 与 CUDA 编程之间的关系,并且会讨论 GPU 在 SIMT 编程本质,SIMD、SIMT 与 DSA 架构,DSA 架构的主要形态。目前已经有大量的 AI 芯片研发上市,但是如何开发基于硬件的编译栈与编程体系,让开发者更好地使用 阅读全文
posted @ 2024-12-11 21:49
无尽玩AI
阅读(44)
评论(0)
推荐(0)
摘要:
NHWC 的数据排布方式更适合多核 CPU 运算, NCHW 的数据排布方式更适合 GPU 并行运算。那么接下来让我们了解一下在华为昇腾的 NPU 中,这种特征图的存储方式。 截止到 2024 年,华为昇腾在私有格式的数据处理和特殊的数据形态越来越少,主要是得益于 AI 编译器和软件的迭代升级,更加 阅读全文
posted @ 2024-12-11 21:48
无尽玩AI
阅读(159)
评论(0)
推荐(0)
摘要:
本文将深入介绍昇腾 AI 处理器的核心单元——AI Core,以及其背后的达芬奇架构。昇腾 AI 处理器是华为针对 AI 领域设计的专用处理器,其核心 AI Core 采用了特定域架构(Domain Specific Architecture,DSA),专门为深度学习算法中常见的计算模式进行优化。 阅读全文
posted @ 2024-12-11 21:47
无尽玩AI
阅读(185)
评论(0)
推荐(0)
摘要:
本文将会介绍华为昇腾 AI 处理器的架构与卷积加速原理。昇腾 AI 处理器是华为基于达芬奇架构专为AI计算加速而设计的处理器,它支持云边端一体化的全栈全场景解决方案,具有高能效比和强大的 3D Cube 矩阵计算单元,支持多种计算模式和混合精度计算。 昇腾 AI 处理器的架构包括了 AI Core、 阅读全文
posted @ 2024-12-11 21:47
无尽玩AI
阅读(253)
评论(0)
推荐(0)
摘要:
昇腾计算的基础软硬件是产业的核心,也是 AI 计算能力的来源。华为,作为昇腾计算产业生态的一员,是基础软硬件系统的核心贡献者。昇腾计算软硬件包括硬件系统、基础软件和应用使能等。 而本文介绍的 AI 系统整体架构(如图所示),则是对应与昇腾 AI 产业的全栈架构较为相似。因此这里以昇腾计算产业作为例子 阅读全文
posted @ 2024-12-11 21:46
无尽玩AI
阅读(157)
评论(0)
推荐(0)
摘要:
中科寒武纪科技股份有限公司成立于 2016 年 3 月 15 日,其名字 Cambricon 是由 Cambrian(寒武纪)和 Silicon(硅)组合成。企业使命是:为客户创造价值,成为持续创新的智能时代领导者,企业愿景是让机器更好地理解和服务人类。寒武纪提供云边端一体、软硬件协同、训练推理融合 阅读全文
posted @ 2024-12-11 21:46
无尽玩AI
阅读(299)
评论(0)
推荐(0)
摘要:
TPU v4 和 TPU v3 中间相差了四年,在这四年之间,谷歌即使发布了许多对于业界非常重要的研究成果,但是在 TPU 的正代芯片上却没有什么更新。实际上,在 2018 年的 TPU v3 之后,谷歌花了更多的精力在面向大众的芯片上,例如谷歌 Tensor、Pixel 手机系列里的各种处理单元等 阅读全文
posted @ 2024-12-11 21:43
无尽玩AI
阅读(144)
评论(0)
推荐(0)
摘要:
TPU v3 vs. TPU v2 TPU v3 实际上就是 TPU v2 的增强版。TPU v3 相比 TPU v2 有约 1.35 倍的时钟频率、ICI 贷款和内存带宽,两杯 MXU 数量,峰值性能提高 2.7 倍。在同样使用 除了显眼的蓝色外,相比于 TPU v2,TPU v3 在只增大 10 阅读全文
posted @ 2024-12-11 21:43
无尽玩AI
阅读(107)
评论(0)
推荐(0)
摘要:
在 2017 年,谷歌更新了他们的 TPU 序列。谷歌将这一代 TPU 称之为 “用于训练神经网络的特定领域超级计算机”,那么显而易见,相比于专注于推理场景的 TPU v1,TPU v2 将自己的设计倾向放到了训练相关的场景。如果回顾历史,在 2017 年前后,深度学习跨时代的工作如雨后春笋般涌现, 阅读全文
posted @ 2024-12-11 21:42
无尽玩AI
阅读(90)
评论(0)
推荐(0)
摘要:
本文深入探讨了谷歌 TPU v1 的架构和设计原理。我们将解析 TPU v1 芯片的关键元素,包括 DDR3 DRAM、矩阵乘法单元(MXU)、累加器和控制指令单元。重点介绍脉动阵列(Systolic Array)的工作原理,它是 TPU 的核心,通过数据的流水线式处理实现高效的矩阵乘法计算。此外, 阅读全文
posted @ 2024-12-11 21:42
无尽玩AI
阅读(281)
评论(0)
推荐(0)
摘要:
在本文中,我们将深入探讨谷歌的 Tensor Processing Unit(TPU)的发展历程及其在深度学习和 AI 领域的应用。TPU 是谷歌为加速机器学习任务而设计的专用集成电路(ASIC),自首次推出以来,TPU 经历了多次迭代升级,包括 TPU v1、v2、v3 和 v4,以及 Edge 阅读全文
posted @ 2024-12-11 21:41
无尽玩AI
阅读(227)
评论(0)
推荐(0)
摘要:
在当今的高性能计算领域,英伟达的 GPU 技术无疑是一颗璀璨的明星。随着 AI 和机器学习技术的飞速发展,对于计算能力的需求日益增长,GPU 之间的互联互通变得尤为重要。在这样的背景下,英伟达推出了 NVLink 协议,以及基于此技术的多 GPU 互联解决方案——NV Switch。 本文将深入探讨 阅读全文
posted @ 2024-12-11 21:40
无尽玩AI
阅读(267)
评论(0)
推荐(0)
摘要:
随着 AI 技术的飞速发展,大模型的参数量已经从亿级跃升至万亿级,这一变化不仅标志着 AI 的显著提升,也对支持这些庞大模型训练的底层硬件和网络架构提出了前所未有的挑战。为了有效地训练这些复杂的模型,需要依赖于大规模的 GPU 服务器集群,它们通过高速网络相互连接,以便进行快速、高效的数据交换。但是 阅读全文
posted @ 2024-12-11 21:40
无尽玩AI
阅读(477)
评论(0)
推荐(1)
摘要:
在进入大模型时代后,大模型的发展已成为 AI 的核心,但训练大模型实际上是一项比较复杂的工作,因为它需要大量的 GPU 资源和较长的训练时间。 此外,由于单个 GPU 工作线程的内存有限,并且许多大模型的大小已经超出了单个 GPU 的范围。所以就需要实现跨多个 GPU 的模型训练,这种训练方式就涉及 阅读全文
posted @ 2024-12-11 21:39
无尽玩AI
阅读(73)
评论(0)
推荐(0)
摘要:
Tensor Core 是用于加速深度学习计算的关键技术,其主要功能是执行神经网络中的矩阵乘法和卷积运算。通过利用混合精度计算和张量核心操作,Tensor Core 能够在较短的时间内完成大量矩阵运算,从而显著加快神经网络模型的训练和推断过程。具体来说,Tensor Core 采用半精度(FP16) 阅读全文
posted @ 2024-12-11 21:37
无尽玩AI
阅读(291)
评论(0)
推荐(0)
摘要:
自 Volta 架构时代起,英伟达的 GPU 架构已经明显地转向深度学习领域的优化和创新。2017 年,Volta 架构横空出世,其中引入的张量核心(Tensor Core)设计可谓划时代之作,这一设计专门针对深度学习计算进行了优化,通过执行融合乘法加法操作,大幅提升了计算效率。与前一代 Pasca 阅读全文
posted @ 2024-12-11 21:35
无尽玩AI
阅读(73)
评论(0)
推荐(0)
摘要:
在英伟达的通用 GPU 架构中,主要存在三种核心类型:CUDA Core、Tensor Core 以及 RT Core。其中,Tensor Core 扮演着极其关键的角色。 Tensor Core 是针对深度学习和 AI 工作负载而设计的专用核心,可以实现混合精度计算并加速矩阵运算,尤其擅长处理半精 阅读全文
posted @ 2024-12-11 20:51
无尽玩AI
阅读(180)
评论(0)
推荐(0)
摘要:
Turing 架构 2018 年 Turing 图灵架构发布,采用 TSMC 12 nm 工艺,总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面,效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core(专门为执行张量/矩阵操作而设计的 阅读全文
posted @ 2024-12-11 20:50
无尽玩AI
阅读(106)
评论(0)
推荐(0)
摘要:
1999 年,英伟达发明了 GPU(graphics processing unit),本文将介绍英伟达 GPU 从 Fermi 到 Blackwell 共 9 代架构,时间跨度从 2010 年至 2024 年,具体包括费米(Feimi)、开普勒(Kepler)、麦克斯韦(Maxwell)、帕斯卡( 阅读全文
posted @ 2024-12-11 20:49
无尽玩AI
阅读(287)
评论(0)
推荐(0)
摘要:
本文会讲解英伟达 GPU 硬件的基础概念,其次会讲解 CUDA(Compute Unified Device Architecture)并行计算平台和编程模型,详细讲解 CUDA 线程层次结构,最后将讲解 GPU 的算力是如何计算的,这将有助于计算大模型的算力峰值和算力利用率。 GPU 硬件基础概念 阅读全文
posted @ 2024-12-11 20:48
无尽玩AI
阅读(367)
评论(0)
推荐(0)
摘要:
为什么 GPU 适用于 AI 计算或者为什么 AI 训练需要使用 GPU,而不是使用 CPU 呢?本文内容主要探究 GPU AI 编程的本质,首先回顾卷积计算是如何实现的,然后探究 GPU 的线程分级,分析 AI 的计算模式和线程之间的关系,最后讨论矩阵乘计算如何使用 GPU 编程去提升算力利用率或 阅读全文
posted @ 2024-12-11 20:21
无尽玩AI
阅读(129)
评论(0)
推荐(0)
摘要:
在本文中我们要从更远的视角来看看计算机架构发展的黄金 10 年,主要将围绕异构计算和超异构来展开。在开始具体内容前,我们非常推荐您观看以下两个视频: 计算机架构的新黄金时代:A New Golden Age for Computer Architecture 编译器的黄金时代:The Golden 阅读全文
posted @ 2024-12-11 20:20
无尽玩AI
阅读(58)
评论(0)
推荐(0)
摘要:
前面的文章对 AI 计算体系和 AI 芯片基础进行讲解,在 AI 芯片基础中关于通用图形处理器 GPU 只是简单地讲解了主要概念,将从 GPU 硬件基础和英伟达 GPU 架构两个方面讲解 GPU 的工作原理。英伟达 GPU 有着很长的发展历史,整体架构从 Fermi 到 Blankwell 架构演变 阅读全文
posted @ 2024-12-11 20:20
无尽玩AI
阅读(168)
评论(0)
推荐(0)
摘要:
GPU 是 Graphics Processing Unit(图形处理器)的简称,它是计算机系统中负责处理图形和图像相关任务的核心组件。GPU 的发展历史可以追溯到对计算机图形处理需求的不断增长,以及对图像渲染速度和质量的不断追求。从最初的简单图形处理功能到如今的高性能计算和深度学习加速器,GPU 阅读全文
posted @ 2024-12-11 20:19
无尽玩AI
阅读(80)
评论(0)
推荐(0)
摘要:
近年来,随着 AI 技术的飞速发展,AI 专用处理器如 NPU(Neural Processing Unit)和 TPU(Tensor Processing Unit)也应运而生。这些处理器旨在加速深度学习和机器学习任务,相比传统的 CPU 和 GPU,它们在处理 AI 任务时表现出更高的效率和性能 阅读全文
posted @ 2024-12-11 20:19
无尽玩AI
阅读(277)
评论(0)
推荐(0)
摘要:
CPU(中央处理器)是计算机的核心组件,其性能对计算机系统的整体性能有着重要影响。CPU 计算时延是指从指令发出到完成整个指令操作所需的时间。理解 CPU 的计算时延对于优化计算性能和设计高效的计算系统至关重要。在本文中我们将要探讨 CPU 的计算时延组成和影响时延产生的因素,并深入讨论 CPU 计 阅读全文
posted @ 2024-12-11 20:18
无尽玩AI
阅读(41)
评论(0)
推荐(0)
摘要:
我们知道,计算机指令是指挥机器工作的指示和命令,程序就是一系列指令按照顺序排列的集合,执行程序的过程就是计算机的工作过程。从微观上看,我们输入指令的时候,计算机会将指令转换成二进制码存储在存储单元里面,然后在即将执行的时候拿出来。那么计算机是怎么知道我们输入的是什么指令,指令要怎么执行呢? 这就要提 阅读全文
posted @ 2024-12-11 20:17
无尽玩AI
阅读(179)
评论(0)
推荐(0)
摘要:
本文将深入探讨 CPU 的计算性能,从算力的敏感度和不同技术趋势中分析影响 CPU 性能的关键因素。我们将通过数据和实例,详细解释 CPU 算力的计算方法、算力与数据加载之间的平衡点,以及如何通过算力敏感度分析来识别和优化计算系统中的性能瓶颈。此外,我们还将观察服务器、GPU 和超级计算机等不同计算 阅读全文
posted @ 2024-12-11 20:17
无尽玩AI
阅读(121)
评论(0)
推荐(0)
摘要:
在前面的深度学习计算模式里面我们提到了模型的量化操作,通过建立一种有效的数据映射关系,使得模型以较小的精度损失获得更好的模型执行效率的收益。模型量化的具体操作就是将高比特的数据转换为低比特位宽表示。本文我们将 在前面的深度学习计算模式里面我们提到了模型的量化操作,通过建立一种有效的数据映射关系,使得 阅读全文
posted @ 2024-12-11 20:16
无尽玩AI
阅读(69)
评论(0)
推荐(0)
摘要:
CPU 是 Central Processing Unit(中央处理器)的简称,它负责执行指令和计算,控制着计算机的所有组件。CPU 从无到有,从弱小到强大,经历了漫长发展过程,其间发生了无数的故事。 在本文将着重介绍 CPU 基础内容,从 CPU 的发展历史入手,看看世界上第一块 CPU 是怎么诞 阅读全文
posted @ 2024-12-11 20:16
无尽玩AI
阅读(38)
评论(0)
推荐(0)
摘要:
AI 模型中往往包含大量的矩阵乘运算,该算子的计算过程表现为较高的内存搬移和计算密度需求,所以矩阵乘的效率是 AI 芯片设计时性能评估的主要参考依据。本文我们一起来看一下矩阵乘运算在 AI 芯片的具体过程,了解它的执行性能是如何被优化实现的。 从卷积到矩阵乘 AI 模型中的卷积层的实现定义大家应该都 阅读全文
posted @ 2024-12-11 19:57
无尽玩AI
阅读(84)
评论(0)
推荐(0)
摘要:
前面我们已经对 AI 的计算模式有了初步的认识,那么这些计算模式具体是如何和 AI 芯片设计结合起来的呢?接下来我们将从 AI 芯片关键设计指标的角度来进一步拓展对 AI 计算体系的思考。 计算单位 市场上当一款 AI 芯片产品发布时候,经常会通过一些指标数据说明产品的能力,比如芯片制程,内存大小, 阅读全文
posted @ 2024-12-11 19:55
无尽玩AI
阅读(146)
评论(0)
推荐(0)
摘要:
了解 AI 计算模式对 AI 芯片设计和优化方向至关重要。本文将会接着从轻量化网络模型和大模型分布式并行两个主题来深入了解 AI 算法的发展现状,引发关于 AI 计算模式的思考。 轻量化网络模型 随着神经网络应用的普及,越来越多的模型需要在特定的硬件平台部署,如移动端和嵌入式设备,这些平台普遍存在内 阅读全文
posted @ 2024-12-11 19:48
无尽玩AI
阅读(165)
评论(0)
推荐(0)
摘要:
了解 AI 计算模式对 AI 芯片设计和优化方向至关重要。本文将会通过模型结构、压缩、轻量化和分布式几个内容,来深入了解 AI 算法的发展现状,引发关于 AI 计算模式的思考,重点围绕经典网络模型和模型量化压缩两方面进行展开。 经典模型结构设计与演进 神经网络的基本概念 神经网络是 AI 算法基础的 阅读全文
posted @ 2024-12-11 19:44
无尽玩AI
阅读(92)
评论(0)
推荐(0)
摘要:
在整个 AI 系统的构建中,AI 算法、AI 框架、AI 编译器、AI 推理引擎等都是软件层面的概念,而 AI 芯片则是物理存在的实体,AI 芯片是所有内容的重要基础。 本系列文章将会通过对典型的 AI 模型结构的设计演进进行分析,来理解 AI 算法的计算体系如何影响 AI 芯片的设计指标,进而结合 阅读全文
posted @ 2024-12-11 19:42
无尽玩AI
阅读(54)
评论(0)
推荐(0)
摘要:
AI 系统全栈架构 通过对 AI 的发展、以及模型算法、硬件与数据的趋势介绍,我们已经了解了 AI 系统的重要性。本文将介 AI 系统的设计目标、组成和生态,让读者形成 AI 系统的知识体系,为后续展开每篇文章的内容做好铺垫。 AI 系统设计本身需要各个环节通盘考量,无论是系统性能,还是用户体验,亦 阅读全文
posted @ 2024-12-11 18:59
无尽玩AI
阅读(162)
评论(0)
推荐(0)
摘要:
AI 系统组成 如图所示,大致可以将 AI 系统分为以下几个具体的方向: AI 训练与推理框架 AI 框架不仅仅是指如 PyTorch 等训练框架,还包括推理框架。其负责提供用户前端的 AI 编程语言,接口和工具链。负责静态程序分析与计算图构建,编译优化等工作。AI 框架本身通过提供供用户编程的 A 阅读全文
posted @ 2024-12-11 18:59
无尽玩AI
阅读(47)
评论(0)
推荐(0)
摘要:
模型算法的开发者一般会通过使用 AI 框架提供 Python 等高级语言的 API,来编写对应的 AI 算法,而 AI 算法的底层系统问题被当前层抽象隐藏。到底在代码背后 AI 系统的每一层发生和执行了什么?有哪些有意思的系统设计问题? 本文我们将从一个具体的 PyTorch 实现一个 LeNet5 阅读全文
posted @ 2024-12-11 18:59
无尽玩AI
阅读(90)
评论(0)
推荐(0)
摘要:
大模型的到来,让越来越多的系统工程师,能够接触在之前难以想象的集群规模尺度上解决复杂的、最前沿的工程问题,且能产生巨大的经济成本和时间成本收益。 不过,让人感慨的是随着 GPT 使用 Transformer 结构去规模化大模型后,随着集群规模的扩展,对于 AI 系统的要求越来越高,可是很多人没办法很 阅读全文
posted @ 2024-12-11 18:59
无尽玩AI
阅读(189)
评论(0)
推荐(0)
摘要:
AI 起源于上世纪五十年代,经历了几次繁荣与低谷,直到 2016 年谷歌旗下的 DeepMind 发布 AlphaGo 程序赢得与世界围棋冠军的比赛,大众对 AI 的关注与热情被重新点燃。其实 AI 技术早在这个标志事件之前已经在工业界很多互联网公司中得到了广泛应用与部署。例如,搜索引擎服务中的排序 阅读全文
posted @ 2024-12-11 18:53
无尽玩AI
阅读(65)
评论(0)
推荐(0)
摘要:
AI 基本理论奠定 虽然 AI 在今年取得了举世瞩目的进展与突破,但是其当前基于的核心理论神经网络等,在这波浪潮开始前已经基本奠定,并经历了多次的起起伏伏。神经网络作为 AI 的前身,经历了以下的发展阶段: 萌芽兴奋期(约 1950s) 1943 年,神经科学家和控制论专家 Warren McCul 阅读全文
posted @ 2024-12-11 18:52
无尽玩AI
阅读(27)
评论(0)
推荐(0)
摘要:
AI 的历史与现状 本文将介绍 AI 的由来、现状和趋势,让大家能够了解 AI 应用的由来与趋势,为后面理解 AI 系统的设计形成初步的基础。在后面文章介绍的人工智能系统(AI System)奠定基础,值得注意的是,这些系统设计原则大部分也适合于机器学习系统(ML System)。 因为系统本身是随 阅读全文
posted @ 2024-12-11 18:41
无尽玩AI
阅读(244)
评论(0)
推荐(0)

浙公网安备 33010602011771号