上一页 1 ··· 77 78 79 80 81 82 83 84 85 ··· 367 下一页
摘要: AMD Instinct™MI300系列微架构 AMD Instinct MI300系列加速器基于AMD CDNA 3架构,旨在为HPC、人工智能(AI)和机器学习(ML)工作负载提供领先性能。AMD Instinct MI300系列加速器非常适合极端的可扩展性和计算性能,可以在单个服务器到世界上最 阅读全文
posted @ 2025-03-23 06:29 吴建明wujianming 阅读(120) 评论(0) 推荐(0)
摘要: GPU到GPU通信选项 将讨论使用AMD Instinct™MI250和AMD InstinctTM MI250X GPU的系统中的GPU到GPU通信选项。每个MI250(X)GPU由两个图形计算芯片(GCD)组成。如图4-20所示,显示了具有4个MI250 GPU(8个GCD)的节点的示意图。每个 阅读全文
posted @ 2025-03-23 06:22 吴建明wujianming 阅读(51) 评论(0) 推荐(0)
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-03-23 06:19 吴建明wujianming 阅读(40) 评论(0) 推荐(0)
摘要: 有限差分法——拉普拉斯第4部分 提出了拉普拉斯算子有限差分法的HIP实现,并应用了四种不同的优化。在这些代码修改过程中,观察到由于全局内存的总取数减少,性能得到了逐步提高。然后,应用了进一步的优化,以在512×512×512上达到预期的性能目标MI250X GPU的单个GCD上的512个点网格。下面 阅读全文
posted @ 2025-03-21 04:19 吴建明wujianming 阅读(39) 评论(0) 推荐(0)
摘要: 加速 PyTorch 模型介绍 PyTorch 2.0 引入了一个名为*torch.compile()*的工具,可以极大地加速 PyTorch 代码和模型。通过将 PyTorch 代码转换为高度优化的内核,torch.compile 在现有代码库上进行最小化修改即可提供显著的性能提升。此功能允许精确 阅读全文
posted @ 2025-03-21 04:10 吴建明wujianming 阅读(213) 评论(0) 推荐(0)
摘要: ResNet-152 模型在渴望模式下的性能评估 为了预热 GPU,在进行 20 次额外迭代以获取模型的平均推理时间之前,先运行 ResNet-152 模型 10 次。 n_warmup = 10 n_test = 20 dtype = torch.bfloat16 inference_time=[ 阅读全文
posted @ 2025-03-21 04:04 吴建明wujianming 阅读(84) 评论(0) 推荐(0)
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-03-21 03:58 吴建明wujianming 阅读(18) 评论(0) 推荐(0)
摘要: 加速 PyTorch 模型介绍 PyTorch 2.0 引入了一个名为*torch.compile()*的工具,可以极大地加速 PyTorch 代码和模型。通过将 PyTorch 代码转换为高度优化的内核,torch.compile 在现有代码库上进行最小化修改即可提供显著的性能提升。此功能允许精确 阅读全文
posted @ 2025-03-20 06:19 吴建明wujianming 阅读(141) 评论(0) 推荐(0)
摘要: 数据布局 3D数据的布局使得i方向上的网格点在内存中是连续的,而k方向上的栅格点则以nx*ny为步长。此映射以宏为例: #define u(i, j, k) h_u[(i) + (j) * nx + (k) * nx * ny] 其中i、j和k周围的括号确保了 等表达式的正确展开。在网格点位置应用的 阅读全文
posted @ 2025-03-20 06:12 吴建明wujianming 阅读(72) 评论(0) 推荐(0)
摘要: AMD ROCm 软件 ROCm是一个开源堆栈,主要由开源软件组成,专为图形处理单元(GPU)计算而设计。ROCm由一系列驱动程序、开发工具和API组成,使GPU编程能够从低级内核到最终用户应用程序。 使用ROCm,可以自定义GPU软件以满足特定需求。可以在免费、开源、集成和安全的软件生态系统中开发 阅读全文
posted @ 2025-03-20 06:09 吴建明wujianming 阅读(305) 评论(0) 推荐(0)
上一页 1 ··· 77 78 79 80 81 82 83 84 85 ··· 367 下一页