上一页 1 ··· 75 76 77 78 79 80 81 82 83 ··· 367 下一页
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-02 16:27 吴建明wujianming 阅读(21) 评论(0) 推荐(0)
摘要: AMDGPU对CUDA支持方式的分析 实现方式是针对HIP API(Heterogeneous-Computing Interface for Portability)做CUDA的接口套壳,即将cuda的API接口作为标准接口,用AMD ROCm实现cuda的API(目的就是保证对外的API与CUD 阅读全文
posted @ 2025-04-01 19:54 吴建明wujianming 阅读(233) 评论(0) 推荐(0)
摘要: AMD GPU平台简单分析 在启动docker的测试命令中,传入一个设备参数--device=/dev/kfd,转到DOCKER环境,kfd表示AMDGPU异构计算的GPU设备驱动(KMD)的设备节点,它是用户操作GPU的基础。AMD GPU设备驱动流程简单分析,如图1-19所示。 图1-19 AM 阅读全文
posted @ 2025-04-01 19:51 吴建明wujianming 阅读(95) 评论(0) 推荐(0)
摘要: 从引言中“Dennard Scaling”的失效开始,引入GPU出现的背景,又介绍了GPU的通用性,以及高并发、低延迟保证的高计算速度。随后,我们以最常见的CUDA为例,介绍了GPU编程的基础,SIMT与SIMD,编译链接的过程。最后,我们深入硬件层面,分为三步走,先用最简系统“run起来”,然后分 阅读全文
posted @ 2025-04-01 19:25 吴建明wujianming 阅读(24) 评论(0) 推荐(0)
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-04-01 19:11 吴建明wujianming 阅读(22) 评论(0) 推荐(0)
摘要: AMD CDNA介绍 AMD CDNA处理器采用并行微架构,旨在为通用数据并行应用提供一个出色的平台。需要高带宽或计算密集型的数据密集型应用程序,这是在AMD CDNA处理器上运行的候选者。 AMD CDNA生成系列处理器的框图,如图5-10所示。 图5-10 AMD CDNA生成系列处理器的框图 阅读全文
posted @ 2025-03-31 04:34 吴建明wujianming 阅读(170) 评论(0) 推荐(0)
摘要: AMD Instinct™MI300系列微架构 AMD Instinct MI300系列加速器基于AMD CDNA 3架构,旨在为HPC、人工智能(AI)和机器学习(ML)工作负载提供领先性能。AMD Instinct MI300系列加速器非常适合极端的可扩展性和计算性能,可以在单个服务器到世界上最 阅读全文
posted @ 2025-03-31 04:29 吴建明wujianming 阅读(206) 评论(0) 推荐(0)
摘要: 在Eager模式下对Llama 2 7B模型进行性能评估 指定--compile none以使用Eager模式。 1)--compile:设置为none以使用Eager模式 2)--profile:启用torch.profiler的跟踪功能 3)--checkpoint_path:检查点路径 4)- 阅读全文
posted @ 2025-03-31 04:18 吴建明wujianming 阅读(46) 评论(0) 推荐(0)
摘要: 使用 torch.compile 加速视觉Transformer 视觉Transformer(ViT)是一个类似 BERT的transformer编码器模型,在大规模的图像集合上,使用有监督方式进行了预训练,就是在分辨率为 224×224 像素的 ImageNet-21k 数据集上预训练的。以下是如 阅读全文
posted @ 2025-03-31 04:10 吴建明wujianming 阅读(107) 评论(0) 推荐(0)
摘要: GPU到GPU通信选项技术 将讨论使用AMD Instinct™MI250和AMD InstinctTM MI250X GPU的系统中的GPU到GPU通信选项。每个MI250(X)GPU由两个图形计算芯片(GCD)组成。如图4-20所示,显示了具有4个MI250 GPU(8个GCD)的节点的示意图。 阅读全文
posted @ 2025-03-31 04:03 吴建明wujianming 阅读(64) 评论(0) 推荐(0)
上一页 1 ··· 75 76 77 78 79 80 81 82 83 ··· 367 下一页