摘要: Groq软件定义的横向扩展张量流多处理器-从芯片到系统架构概述 1.大纲 1)张量流处理器(TSP)背景 2)软件定义的硬件和确定性执行 3)TSP微架构 4)系统封装、拓扑、路由和流控制 5)小结 2.软件定义方法 1)软硬件协同设计并不是什么新鲜事 2)重新检查硬件软件接口 ① 静态-动态接口: 阅读全文
posted @ 2025-03-19 04:23 吴建明wujianming 阅读(55) 评论(0) 推荐(0)
摘要: Radeon GPU上使用ROCm一些技术点 1. 使用最新的高端AMD Radeon™7000系列GPU,将桌面变成机器学习平台 AMD已扩展了对RDNA™3 GPU上机器学习开发的支持,该GPU具有Radeon™软件,适用于Linux 24.10.3和ROCm™6.1.3! 使用PyTorch、 阅读全文
posted @ 2025-03-19 04:17 吴建明wujianming 阅读(245) 评论(0) 推荐(0)
摘要: 与Julia生态系统集成 AMDGPU.jl将ROCm库与Julia生态系统集成在一起,提供统一的体验,使用AMDGPU.j、CPU或其他加速器支持的阵列几乎没有区别。 例如,rocBLAS用于常见的BLAS操作,Julia的算子为了提高效率而分派给他们。 julia> a = AMDGPU.ran 阅读全文
posted @ 2025-03-19 04:10 吴建明wujianming 阅读(46) 评论(0) 推荐(0)
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-03-19 04:03 吴建明wujianming 阅读(15) 评论(0) 推荐(0)