摘要: AMD CDNA介绍 AMD CDNA处理器采用并行微架构,旨在为通用数据并行应用提供一个出色的平台。需要高带宽或计算密集型的数据密集型应用程序,这是在AMD CDNA处理器上运行的候选者。 AMD CDNA生成系列处理器的框图,如图5-10所示。 图5-10 AMD CDNA生成系列处理器的框图 阅读全文
posted @ 2025-03-31 04:34 吴建明wujianming 阅读(170) 评论(0) 推荐(0)
摘要: AMD Instinct™MI300系列微架构 AMD Instinct MI300系列加速器基于AMD CDNA 3架构,旨在为HPC、人工智能(AI)和机器学习(ML)工作负载提供领先性能。AMD Instinct MI300系列加速器非常适合极端的可扩展性和计算性能,可以在单个服务器到世界上最 阅读全文
posted @ 2025-03-31 04:29 吴建明wujianming 阅读(207) 评论(0) 推荐(0)
摘要: 在Eager模式下对Llama 2 7B模型进行性能评估 指定--compile none以使用Eager模式。 1)--compile:设置为none以使用Eager模式 2)--profile:启用torch.profiler的跟踪功能 3)--checkpoint_path:检查点路径 4)- 阅读全文
posted @ 2025-03-31 04:18 吴建明wujianming 阅读(46) 评论(0) 推荐(0)
摘要: 使用 torch.compile 加速视觉Transformer 视觉Transformer(ViT)是一个类似 BERT的transformer编码器模型,在大规模的图像集合上,使用有监督方式进行了预训练,就是在分辨率为 224×224 像素的 ImageNet-21k 数据集上预训练的。以下是如 阅读全文
posted @ 2025-03-31 04:10 吴建明wujianming 阅读(107) 评论(0) 推荐(0)
摘要: GPU到GPU通信选项技术 将讨论使用AMD Instinct™MI250和AMD InstinctTM MI250X GPU的系统中的GPU到GPU通信选项。每个MI250(X)GPU由两个图形计算芯片(GCD)组成。如图4-20所示,显示了具有4个MI250 GPU(8个GCD)的节点的示意图。 阅读全文
posted @ 2025-03-31 04:03 吴建明wujianming 阅读(64) 评论(0) 推荐(0)
摘要: 6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-03-31 04:00 吴建明wujianming 阅读(19) 评论(0) 推荐(0)