摘要:
有限差分法——拉普拉斯第4部分 提出了拉普拉斯算子有限差分法的HIP实现,并应用了四种不同的优化。在这些代码修改过程中,观察到由于全局内存的总取数减少,性能得到了逐步提高。然后,应用了进一步的优化,以在512×512×512上达到预期的性能目标MI250X GPU的单个GCD上的512个点网格。下面 阅读全文
posted @ 2025-03-21 04:19
吴建明wujianming
阅读(39)
评论(0)
推荐(0)
摘要:
加速 PyTorch 模型介绍 PyTorch 2.0 引入了一个名为*torch.compile()*的工具,可以极大地加速 PyTorch 代码和模型。通过将 PyTorch 代码转换为高度优化的内核,torch.compile 在现有代码库上进行最小化修改即可提供显著的性能提升。此功能允许精确 阅读全文
posted @ 2025-03-21 04:10
吴建明wujianming
阅读(214)
评论(0)
推荐(0)
摘要:
ResNet-152 模型在渴望模式下的性能评估 为了预热 GPU,在进行 20 次额外迭代以获取模型的平均推理时间之前,先运行 ResNet-152 模型 10 次。 n_warmup = 10 n_test = 20 dtype = torch.bfloat16 inference_time=[ 阅读全文
posted @ 2025-03-21 04:04
吴建明wujianming
阅读(84)
评论(0)
推荐(0)
摘要:
6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-03-21 03:58
吴建明wujianming
阅读(18)
评论(0)
推荐(0)

浙公网安备 33010602011771号