会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
吴建明
微信视频号:sph0RgSyDYV47z6 快手号:4874645212 抖音号:dy0so323fq2w 小红书号:95619019828 B站1:UID:3546863642871878 B站2:UID: 3546955410049087
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
78
79
80
81
82
83
84
85
86
···
367
下一页
2025年3月20日
推荐6本书《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》打扰感谢
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天
阅读全文
posted @ 2025-03-20 06:06 吴建明wujianming
阅读(14)
评论(0)
推荐(0)
2025年3月19日
Groq软件定义的横向扩展张量流多处理器-从芯片到系统架构概述
摘要: Groq软件定义的横向扩展张量流多处理器-从芯片到系统架构概述 1.大纲 1)张量流处理器(TSP)背景 2)软件定义的硬件和确定性执行 3)TSP微架构 4)系统封装、拓扑、路由和流控制 5)小结 2.软件定义方法 1)软硬件协同设计并不是什么新鲜事 2)重新检查硬件软件接口 ① 静态-动态接口:
阅读全文
posted @ 2025-03-19 04:23 吴建明wujianming
阅读(54)
评论(0)
推荐(0)
Radeon GPU上使用ROCm一些技术点
摘要: Radeon GPU上使用ROCm一些技术点 1. 使用最新的高端AMD Radeon™7000系列GPU,将桌面变成机器学习平台 AMD已扩展了对RDNA™3 GPU上机器学习开发的支持,该GPU具有Radeon™软件,适用于Linux 24.10.3和ROCm™6.1.3! 使用PyTorch、
阅读全文
posted @ 2025-03-19 04:17 吴建明wujianming
阅读(240)
评论(0)
推荐(0)
AMDGPU.jl将ROCm库与Julia生态系统集成
摘要: 与Julia生态系统集成 AMDGPU.jl将ROCm库与Julia生态系统集成在一起,提供统一的体验,使用AMDGPU.j、CPU或其他加速器支持的阵列几乎没有区别。 例如,rocBLAS用于常见的BLAS操作,Julia的算子为了提高效率而分派给他们。 julia> a = AMDGPU.ran
阅读全文
posted @ 2025-03-19 04:10 吴建明wujianming
阅读(45)
评论(0)
推荐(0)
推荐6本书《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》感谢
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天
阅读全文
posted @ 2025-03-19 04:03 吴建明wujianming
阅读(15)
评论(0)
推荐(0)
2025年3月18日
ROCm技术小结与回顾(下)
摘要: 示例3–V_MFMA_F64_4x4x4F64 考虑V_MFMA_F64_4x4x4F64指令,它计算大小为4×4的四个独立矩阵块的MFMA。执行的操作是 ,其中 , , 和 都是大小为4×4元素的矩阵,N=0,1,2,3。 下面的两张图显示了 1)输入参数A和B的四个分量的大小和形状,如图4-18
阅读全文
posted @ 2025-03-18 03:58 吴建明wujianming
阅读(134)
评论(0)
推荐(0)
ROCm技术小结与回顾(上)
摘要: ROCm技术小结与回顾 在这一部分中,首先检查了Kernel 5在各种AMD GPU和问题大小上的性能,并注意到当网格超过一定大小阈值时,性能似乎会急剧下降。通过实验确定,LLC的大小是大型xy平面问题性能的限制因素。提出了两种不同的解决方法来规避缓存大小的问题,这两种方法都只需要修改几行代码。 在
阅读全文
posted @ 2025-03-18 03:51 吴建明wujianming
阅读(138)
评论(0)
推荐(0)
有限差分法——拉普拉斯第4部分
摘要: 有限差分法——拉普拉斯第4部分 提出了拉普拉斯算子有限差分法的HIP实现,并应用了四种不同的优化。在这些代码修改过程中,观察到由于全局内存的总取数减少,性能得到了逐步提高。然后,应用了进一步的优化,以在512×512×512上达到预期的性能目标MI250X GPU的单个GCD上的512个点网格。下面
阅读全文
posted @ 2025-03-18 03:42 吴建明wujianming
阅读(48)
评论(0)
推荐(0)
推荐6本书《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》打扰
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天
阅读全文
posted @ 2025-03-18 03:36 吴建明wujianming
阅读(24)
评论(0)
推荐(0)
2025年3月17日
什么是异构计算(HC)API?
摘要: 什么是异构计算(HC)API? 1. 克隆HCC源树 # 自动获取所有子模块 git clone --recursive -b clang_tot_upgrade https://github.com/RadeonOpenCompute/hcc.git[1] 创建一个构建目录,并在该目录中运行cma
阅读全文
posted @ 2025-03-17 03:59 吴建明wujianming
阅读(31)
评论(0)
推荐(0)
上一页
1
···
78
79
80
81
82
83
84
85
86
···
367
下一页
公告