安洛8 - 博客园

2025年11月8日

摘要： 1. 简介用 mma PTX 指令实现 M16N16K16 矩阵乘法 2. 代码调用1：wmma + sharedM 调用2：wmma + sharedM + padding 避免 bankcoflict 调用3：mma + sharedM + swizzle 避免 bankcoflict // 阅读全文

posted @ 2025-11-08 14:54 安洛8 阅读(124) 评论(0) 推荐(0)

高性能计算-深入理解共享内存 bankConflict 以及解决方案

摘要： 1. 背景知识常说的 bankConflict 指的在共享内存的 store load 过程中产生。共享内存位于 L1TexCache 上，使用场景通常为从 GlobalMemeory store to SharedM，sharedM load to register。共享内存的硬件实现：为实阅读全文

posted @ 2025-11-08 11:46 安洛8 阅读(323) 评论(0) 推荐(0)

2025年11月5日

高性能计算-CUDA-mma PTX 指令行为分析

摘要： 1. 介绍： PTX 指令集中 WMMA 矩阵计算从共享内存加载数据到 fragment 片段使用的封装API是 load__matrix_sync，其底层 PTX指令与mma 一致，并且 fragment 布局一致。本文介绍底层 ldamatrix、stmatrix 指令的行为，并且用代码进行验证阅读全文

posted @ 2025-11-05 20:20 安洛8 阅读(323) 评论(0) 推荐(0)

2025年9月16日

高性能计算-TensorCore-wmma-hgemm

摘要： 1. TensorCore 简介：硬件层面支持半精度浮点矩阵乘法，与昇腾NPU的 cube 核类似，最小只能计算规定尺寸的矩阵乘法。 wmma API 封装在 nvcuda 命名空间 2. naive : 一个block 1 个warp，wmmaTile 16*16 点击查看代码 //naive 阅读全文

posted @ 2025-09-16 17:21 安洛8 阅读(96) 评论(0) 推荐(0)

2025年8月27日

高性能计算-cublas-gemm接口解析

摘要： 1. 介绍参考文章：https://www.cnblogs.com/cuancuancuanhao/p/7763256.html ，本文对 cublas gemm 的接口参数进行原理解释。 2. 接口 cuBLAS中用于运算矩阵乘法的函数有4个，分别是 cublasSgemm（单精度实数）、cub 阅读全文

posted @ 2025-08-27 16:17 安洛8 阅读(206) 评论(0) 推荐(0)

2025年8月18日

高性能计算-CUDA性能优化-transpose

摘要： 1.介绍对 2048 * 512 矩阵转置，使用NCU进行性能分析，并进行性能优化。测试环境 CUDA 12.8,显卡 5070。 2. Native: 二维 Block 二维block,一个线程处理一个元素点击查看代码 //native：二维block,一个线程处理一个元素 //矩阵 M * 阅读全文

posted @ 2025-08-18 18:08 安洛8 阅读(199) 评论(0) 推荐(0)

2025年8月8日

高性能计算-CUDA 性能优化之线程束调度

摘要： 1. 背景最开始在学习 cuda 编程时，只知道 warp scheduler 线程束调度的概念，但是不清楚调度的细节。现在查看 CUDA Pragramming Guide 性能优化篇看到了关于 warp 调度更清晰的细节。 2. 概念延时：一个线程束准备好执行下一条指令的时钟周期，受数据依赖阅读全文

posted @ 2025-08-08 17:46 安洛8 阅读(109) 评论(0) 推荐(0)

2025年7月11日

模型算法-MHA-MQA-GQA(1)

摘要： 1. 介绍：基于最近对大模型 KV_cache，及 Attention 变种学习中遇到的问题和理解记录下来，帮助大家解决一点疑惑。 2. kv_cache 显存对比：参数说明 batch_size：B seq_len：L head_num：H head_dim：D layer_num：N gro 阅读全文

posted @ 2025-07-11 16:33 安洛8 阅读(75) 评论(0) 推荐(0)

2025年5月27日

算子开发-昇腾CANN训练营-Ascend C-Mmad 算子迁移

摘要： 1. 项目介绍源项目仓：https://gitee.com/ascend/samples/tree/master/operator/ascendc/0_introduction/20_mmad_kernellaunch 目标项目仓：https://gitee.com/ascend/cann-ops 阅读全文

posted @ 2025-05-27 10:16 安洛8 阅读(346) 评论(0) 推荐(0)

2025年5月2日

高性能计算-SGEMV矩阵向量乘(30)

摘要： 1. 介绍矩阵向量乘法: A * X = Y, A(M,K) X(K,1) Y(M,1); 实现多种并行算法及优化方法和 cublas 库 sgemv 的效率对比。 2. gpu 并行算法介绍并行算法一：一个线程计算一个结果元素；并行算法二：使用合并访存,需要将输入数据转置；并行算法三: 合阅读全文

posted @ 2025-05-02 22:03 安洛8 阅读(152) 评论(0) 推荐(0)

2025年4月30日

高性能计算-SGEMM矩阵乘法(29)

摘要： 1. 介绍矩阵A（MK） B（KN）单精度浮点数进行矩阵乘法；分别实现CPU串行，GPU多种并行计算算法，与 cublas 库 sgemm 函数效率对比。 2. gpu 并行算法简介并行算法一：二维block,一个线程程计算一个C元素,缺点:访存次数过多并行算法二: 优化一: 使用线程块 t 阅读全文

posted @ 2025-04-30 17:00 安洛8 阅读(269) 评论(0) 推荐(0)

2025年4月1日

高性能计算-GPU并行扫描(28)

摘要： 1. 扫描概念对数组arr[N]扫描就是得到数组prefix[N]，每个元素是之前arr元素的求和. 开扫描定义:prefix1[N] = { arr[0], arr[0]+arr[1], ..., arr[0]+arr[1]+arr[N-1] } 闭扫描定义: prefix2[N] = { 0, 阅读全文

posted @ 2025-04-01 18:53 安洛8 阅读(307) 评论(0) 推荐(0)

2025年3月16日

高性能计算-GPU并行规约(27)

摘要： 1. 目标：对数组进行求和，并做优化对比 2. baseline 代码相邻求和: 根据blockSize对数据分块,并将数据放在共享内存,以线程块为单位,块内线程数量=数据个数,相邻配对,用其中第一个元素索引为ID的线程进行计算,计算结果放在第一个元素位置,循环进行下一轮计算,最后块求和计算结果赋阅读全文

posted @ 2025-03-16 23:11 安洛8 阅读(131) 评论(0) 推荐(0)

2025年3月12日

高性能计算-探究GPU指令延迟隐藏(26)

摘要： 1. 延迟隐藏作用：可以最大化SM的使用效率，提高计算性能 2. 延迟隐藏概念（1）指令延迟是指令发出到完成之间的时钟周期间隔；（2）指令可以分为两种：算数指令和访存指令。 3. 算数指令延迟隐藏实现（1）假如一个算数指令的指令延迟是 4 个时钟周期（2）查询cuda文档得到如下计算能力的设阅读全文

posted @ 2025-03-12 23:24 安洛8 阅读(407) 评论(0) 推荐(0)

2025年2月19日

高性能计算-GPU单进程多卡(多流)并行计算编程模型示例(25)

摘要： 1. 简介 (1) 使用CPU对向量点乘进行串行计算 (2) 对数据进行分块,使用单进程多卡(多流)并行计算 (3) 使用不同数据规模,比较加速比的变化 2. 代码 #include <stdio.h> #include <sys/time.h> #include <stdlib.h> #defin 阅读全文

posted @ 2025-02-19 16:56 安洛8 阅读(247) 评论(0) 推荐(0)

2025年1月7日

高性能计算-CUDA单流/多流调度(24)

摘要： 1. 介绍： (1) 用CUDA计算 pow(sin(id),2)+ pow(cos(id),2)的结果 (2) 对比单流(同步传输、异步传输)、多流深度优先调度、多流广度优先调度的效率(包含数据传输和计算) 核心代码 1. 用CUDA计算 pow(sin(id),2)+ pow(cos(id),2 阅读全文

posted @ 2025-01-07 11:48 安洛8 阅读(268) 评论(0) 推荐(0)

2025年1月4日

高性能计算-CUDA矩阵加法及优化测试(23)

摘要： 1. 目标：对 16384*16384 规模的矩阵进行加法运算，对比 CPU 和 GPU 计算的效率，还有不同线程块大小规模下对效率的影响；并做可能的优化测试。 2. 核心代码 /* 用GPU对二维矩阵做加法，分析不同线程块规模下的性能变化 */ #include <stdio.h> #includ 阅读全文

posted @ 2025-01-04 16:21 安洛8 阅读(282) 评论(0) 推荐(0)

2024年12月31日

高性能计算-CUDA一维信号均值滤波及内存优化(22)

摘要： 1. 目标：使用CPU和GPU对一千万数量级的一维信号进行均值滤波，并且根据GPU存储模型对数据存储进行优化，最终对比计算结果并计算加速比。 2. 代码 /* cuda实现对一维信号卷积平滑滤波处理，并于串行计算对比结果和加速比,卷积核大小为5 */ #include <stdio.h> #incl 阅读全文

posted @ 2024-12-31 18:48 安洛8 阅读(275) 评论(0) 推荐(0)

2024年12月29日

高性能计算-GPU编程模型(21)

摘要： 1. GPU的内存模型 GPU编程数据需要从CPU主存拷贝到GPU全局存储器，所有线程共享全局存储。开辟的全局存储器空间指针在CPU代码中不能解引用使用，应在计算完结果后再拷贝回CPU主存空间。线程块内共享存储。 (1) 线程私有的存储有寄存器、本地内存 (2) 线程块内有块内线程共享的共享内存，在阅读全文

posted @ 2024-12-29 22:21 安洛8 阅读(125) 评论(0) 推荐(0)

2024年12月17日

高性能计算-Intel IPP库ARM移植示例(20)

摘要： 1. 简介 (1) Intel® Integrated Performance Primitives，即英特尔集成性能基元（简称IPP），为信号、数据和图像处理特定应用领域，提供simd优化的一组全面的函数库。 (2) 本项目将对 exp、cos、sin、tone、Triangle函数用NEON向量阅读全文

posted @ 2024-12-17 17:34 安洛8 阅读(405) 评论(0) 推荐(0)

anluo8

公告