摘要:
AMD CDNA介绍 AMD CDNA处理器采用并行微架构,旨在为通用数据并行应用提供一个出色的平台。需要高带宽或计算密集型的数据密集型应用程序,这是在AMD CDNA处理器上运行的候选者。 AMD CDNA生成系列处理器的框图,如图5-10所示。 图5-10 AMD CDNA生成系列处理器的框图 阅读全文
posted @ 2025-03-31 04:34
吴建明wujianming
阅读(170)
评论(0)
推荐(0)
摘要:
AMD Instinct™MI300系列微架构 AMD Instinct MI300系列加速器基于AMD CDNA 3架构,旨在为HPC、人工智能(AI)和机器学习(ML)工作负载提供领先性能。AMD Instinct MI300系列加速器非常适合极端的可扩展性和计算性能,可以在单个服务器到世界上最 阅读全文
posted @ 2025-03-31 04:29
吴建明wujianming
阅读(207)
评论(0)
推荐(0)
摘要:
在Eager模式下对Llama 2 7B模型进行性能评估 指定--compile none以使用Eager模式。 1)--compile:设置为none以使用Eager模式 2)--profile:启用torch.profiler的跟踪功能 3)--checkpoint_path:检查点路径 4)- 阅读全文
posted @ 2025-03-31 04:18
吴建明wujianming
阅读(46)
评论(0)
推荐(0)
摘要:
使用 torch.compile 加速视觉Transformer 视觉Transformer(ViT)是一个类似 BERT的transformer编码器模型,在大规模的图像集合上,使用有监督方式进行了预训练,就是在分辨率为 224×224 像素的 ImageNet-21k 数据集上预训练的。以下是如 阅读全文
posted @ 2025-03-31 04:10
吴建明wujianming
阅读(107)
评论(0)
推荐(0)
摘要:
GPU到GPU通信选项技术 将讨论使用AMD Instinct™MI250和AMD InstinctTM MI250X GPU的系统中的GPU到GPU通信选项。每个MI250(X)GPU由两个图形计算芯片(GCD)组成。如图4-20所示,显示了具有4个MI250 GPU(8个GCD)的节点的示意图。 阅读全文
posted @ 2025-03-31 04:03
吴建明wujianming
阅读(64)
评论(0)
推荐(0)
摘要:
6本书推荐《MLIR编译器原理与实践》、《ONNX人工智能技术与开发实践》、《AI芯片开发核心技术详解》、《智能汽车传感器:原理·设计·应用》、《TVM编译器原理与实践》、《LLVM编译器原理与实践》 由清华大学出版社资深编辑赵佳霓老师策划编辑的新书《MLIR编译器原理与实践》已经出版,京东、淘宝天 阅读全文
posted @ 2025-03-31 04:00
吴建明wujianming
阅读(19)
评论(0)
推荐(0)

浙公网安备 33010602011771号