上一页 1 2 3 4 5 6 ··· 287 下一页
摘要: 与Julia生态系统集成 AMDGPU.jl将ROCm库与Julia生态系统集成在一起,提供统一的体验,使用AMDGPU.j、CPU或其他加速器支持的阵列几乎没有区别。 例如,rocBLAS用于常见的BLAS操作,Julia的算子为了提高效率而分派给他们。 julia> a = AMDGPU.ran 阅读全文
posted @ 2025-03-19 04:10 吴建明wujianming 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该书强力解析AI芯片的核心技 阅读全文
posted @ 2025-03-19 04:03 吴建明wujianming 阅读(2) 评论(0) 推荐(0) 编辑
摘要: 示例3–V_MFMA_F64_4x4x4F64 考虑V_MFMA_F64_4x4x4F64指令,它计算大小为4×4的四个独立矩阵块的MFMA。执行的操作是 ,其中 , , 和 都是大小为4×4元素的矩阵,N=0,1,2,3。 下面的两张图显示了 1)输入参数A和B的四个分量的大小和形状,如图4-18 阅读全文
posted @ 2025-03-18 03:58 吴建明wujianming 阅读(7) 评论(0) 推荐(0) 编辑
摘要: ROCm技术小结与回顾 在这一部分中,首先检查了Kernel 5在各种AMD GPU和问题大小上的性能,并注意到当网格超过一定大小阈值时,性能似乎会急剧下降。通过实验确定,LLC的大小是大型xy平面问题性能的限制因素。提出了两种不同的解决方法来规避缓存大小的问题,这两种方法都只需要修改几行代码。 在 阅读全文
posted @ 2025-03-18 03:51 吴建明wujianming 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 有限差分法——拉普拉斯第4部分 提出了拉普拉斯算子有限差分法的HIP实现,并应用了四种不同的优化。在这些代码修改过程中,观察到由于全局内存的总取数减少,性能得到了逐步提高。然后,应用了进一步的优化,以在512×512×512上达到预期的性能目标MI250X GPU的单个GCD上的512个点网格。下面 阅读全文
posted @ 2025-03-18 03:42 吴建明wujianming 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该书强力解析AI芯片的核心技 阅读全文
posted @ 2025-03-18 03:35 吴建明wujianming 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 什么是异构计算(HC)API? 1. 克隆HCC源树 # 自动获取所有子模块 git clone --recursive -b clang_tot_upgrade https://github.com/RadeonOpenCompute/hcc.git[1] 创建一个构建目录,并在该目录中运行cma 阅读全文
posted @ 2025-03-17 03:59 吴建明wujianming 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 3.2 ROCm技术解析 ROCm是第一个用于GPU计算的开源HPC/Hyperscale级平台,也是独立于编程语言的。将UNIX的选择哲学、极简主义和模块化软件开发引入GPU计算。新的ROCm基础允许为应用程序选择甚至开发工具和语言运行时。 1)[n1] ROCm是为规模而构建的;它支持通过RDM 阅读全文
posted @ 2025-03-17 03:56 吴建明wujianming 阅读(9) 评论(0) 推荐(0) 编辑
摘要: AMD GPU上对比语言图像预训练(CLIP)模型的交互 3.1.1 介绍 对比语言图像预训练(CLIP)是一种连接视觉和自然语言的多模态深度学习模型。它是在OpenAI的论文从自然语言监督中学习可转移的视觉模型(2021)中介绍的,并在大量(4亿)图像字幕对的网络抓取数据上进行了对比训练(这是最早 阅读全文
posted @ 2025-03-17 03:53 吴建明wujianming 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 4本书推荐《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《AI芯片开发核心技术详解》已经出版,京东、淘宝天猫、当当等网上,相应陆陆续续可以购买。该书强力解析AI芯片的核心技 阅读全文
posted @ 2025-03-17 03:46 吴建明wujianming 阅读(3) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 ··· 287 下一页