上一页 1 ··· 96 97 98 99 100 101 102 103 104 ··· 368 下一页
摘要: 《LLVM编译器原理与实践》,机械工业出版社出版,已于2024年10月出版。 微信视频号:sph0RgSyDYV47z6快手号:4874645212抖音号:dy0so323fq2w小红书号:95619019828B站1:UID:3546863642871878B站2:UID: 35469554100 阅读全文
posted @ 2024-10-27 10:50 吴建明wujianming 阅读(863) 评论(4) 推荐(0)
摘要: 简单谈谈Google TPUv6 根据Google TPU第六代的数据做了一些性能数据的对比,需要注意的是TPUv6当前应该是一个用于训推一体的单Die的版本,用于训练的V6p双Die版本应该会后期再发布. 需要注意的是在国内外都开始卷大模型推理价格的时候, TPU这样的东西对于提高ROI非常有帮助 阅读全文
posted @ 2024-10-26 18:44 吴建明wujianming 阅读(533) 评论(0) 推荐(0)
摘要: GNU编译器(GCC)原理简介 GNU编译器(GCC, GNU Compiler Collection)是GNU工具链的关键组件,与GNU、Linux相关项目的标准编译器。它设计之初仅用来处理C语言的(也被称为GNU C编译器),紧接着扩展到C++、Objective-C/C++、Fortran、J 阅读全文
posted @ 2024-10-26 18:22 吴建明wujianming 阅读(269) 评论(0) 推荐(0)
摘要: CPU 计算时延 CPU(中央处理器)是计算机的核心组件,其性能对计算机系统的整体性能有着重要影响。CPU 计算时延是指从指令发出到完成整个指令操作所需的时间。理解 CPU 的计算时延对于优化计算性能和设计高效的计算系统至关重要。 1. CPU 计算时延的组成 CPU 计算时延主要由以下几个部分组成 阅读全文
posted @ 2024-10-26 18:08 吴建明wujianming 阅读(301) 评论(0) 推荐(0)
摘要: 张量矩阵乘法分块乘法概述 介绍一下矩阵计算相关的内容, 从最基本的算法,到Cutlass这些线性代数模版库, 特别是Layout代数相关的内容,再逐渐细化到一些硬件实现访存优化和一些算子融合。 6.3.1 GEMM概述 1. GEMM定义 对于一个矩阵乘法, 定义如下: (6-1) 一个矩阵乘法定义 阅读全文
posted @ 2024-10-07 11:53 吴建明wujianming 阅读(163) 评论(0) 推荐(0)
摘要: 矩阵分块乘法 通常可以把一个矩阵分成多个块, 例如, (6-4) 可以将其划分为 4个块: (6-5) (6-6) 分块后的矩阵记为: (6-7) 分块矩阵乘法如下所示: (6-7) 划分不一定需要完全等间隔, 只需要满足子矩阵乘法规则即可, 如图6-27所示。 图6-27 子矩阵划分不一定需要完全 阅读全文
posted @ 2024-10-07 11:49 吴建明wujianming 阅读(955) 评论(1) 推荐(0)
摘要: 从硬件的视角看GEMM 1. 分块乘法的内存层次架构 分块矩阵乘法,如图6-28所示, 通过将矩阵分块拆分,能够在处理器的Cache和寄存器内存放进行快速计算,计算完成后写回主存。 图6-28 分块矩阵乘法 首先,所有的数据都在主内存中,如图6-29所示。 图6-29 所有的数据都在主内存中 然后, 阅读全文
posted @ 2024-10-07 11:42 吴建明wujianming 阅读(368) 评论(0) 推荐(1)
摘要: 传统编译器与 AI 编译器区别 接下来,来了解一下 AI 编译器与传统编译器的区别与联系。 1. 区别与联系 1)目标相同:AI 编译器与传统编译器都是通过自动化的方式进行程序优化和代码生成,从而节省大量的人力对不同底层硬件的手动优化。 2)优化方式类似:在编译优化层,AI 编译器与传统编译器都是通 阅读全文
posted @ 2024-09-30 14:14 吴建明wujianming 阅读(287) 评论(0) 推荐(1)
摘要: 应用层需要 AI 编译器 从硬件角度以及底层软件的角度来看待为什么需要 AI 编译器的,而现在可以换一个上层应用视角来看待这个问题。 以深度神经网络为技术基础的人工智能领域在近些年发展十分迅速,从 10 年前,AI 技术可能只能解决图形分类等较为简单的任务,但如今无论是推荐系统、大语言模型、自动驾驶 阅读全文
posted @ 2024-09-30 14:12 吴建明wujianming 阅读(90) 评论(0) 推荐(1)
摘要: 为什么需要 AI 编译器 随着硬件技术的不断进步,进入了一个新的计算加速时代,这个时代的硬件平台变得越来越复杂和多层次。现代计算加速平台采用了多层架构,包括标量、向量、多核、多包、多机架等不同层次的并行处理能力。这种设计不仅提高了性能,也增加了硬件设计的复杂性。同时,现代计算平台的架构设计是明确的, 阅读全文
posted @ 2024-09-30 14:09 吴建明wujianming 阅读(106) 评论(0) 推荐(0)
上一页 1 ··· 96 97 98 99 100 101 102 103 104 ··· 368 下一页