随笔分类 -  模型性能优化

介绍深度学习模型训练及推理性能优化,包括理论和技术,设计云侧和端侧
摘要:对于深度学习模型的性能调优,基本出发点有两个: 提高计算速度和效率 减少IO,包括磁盘和内存数据的读写 以下是对 PyTorch 官方文档《性能调优指南》(Performance Tuning Guide)的中文总结,涵盖了提升训练和推理效率的关键策略,在阅读时可以参照以上两点思考一下: 1. 通用 阅读全文
posted @ 2025-06-01 02:08 beanmoon 阅读(170) 评论(0) 推荐(0)
摘要:对于深度学习来说,其模型计算量往往很大(训练尤甚),但在训练时经常看到GPU利用率打不满的情况,这说明瓶颈在GPU算力以外的其他地方,其中一个最重要的影响因素便是显存带宽 下表列举了几个常用显卡的常规参数 Model Memory (GB) Memory Bandwidth (GB/sec) FP3 阅读全文
posted @ 2025-05-31 23:40 beanmoon 阅读(88) 评论(0) 推荐(0)