平台加速 - 随笔分类 - YuanZiming

昇腾310P使用记录

摘要：概述课题组最近的项目需要用到华为的昇腾计算卡，和CUDA汗牛充栋的教程和文档相比，作为一款比较新的计算卡产品，昇腾在网上基本没什么教程，可以参考的只有官方文档、官方代码仓库和官方论坛。因此我在使用的过程中，也经过了很多探索，踩了不少坑，所以在这里记录一下我遇到的一些问题和解决方案。特别强调一下，阅读全文

posted @ 2024-10-02 11:19 YuanZiming 阅读(7045) 评论(4) 推荐(1)

Windows上使用VTune分析PyTorchExtension调用的Cpp程序

摘要：概述最近在实现一个通过PyTorch Extension扩展PyTorch算子的C++算法，需要分析代码的运行瓶颈进行针对性优化。Intel VTune就是一个能从汇编级和源码级分析CPU运行瓶颈的工具。由于不明原因我没在服务器上跑通命令行版的VTune，所以把程序搬到Windows下分析了，因此阅读全文

posted @ 2024-06-30 12:54 YuanZiming 阅读(160) 评论(0) 推荐(0)

自定义CUDA实现PyTorch算子的四种简单方法

摘要：背景在探索新的深度学习算法的时候，我们可能会遇到PyTorch提供的算子不能满足需求的情况，这时候就需要自定义PyTorch算子，将我们的算法集成到PyTorch的工作流中。同时，为了提高运算效率，算子往往都需要使用CUDA实现。所幸，PyTorch及很多其他Python库都提供了简化这一过程的方阅读全文

posted @ 2023-09-03 15:50 YuanZiming 阅读(4261) 评论(0) 推荐(0)

YuanZiming

随笔分类 - 平台加速

公告