随笔分类 - 性能优化
摘要:模型剪枝是用在模型的一种优化技术,旨在减少神经网络中不必要的参数,从而降低模型的复杂性和计算负载,进一步提高模型的效率。 模型剪枝的流程:约束训练(constained training)、剪枝(prune)、回调训练(finetune) 本篇主要记录自己YOLOv8模型剪枝的全过程,主要参考:YO
阅读全文
摘要:一,剪枝分类 所谓模型剪枝,其实是一种从神经网络中移除"不必要"权重或偏差(weigths/bias)的模型压缩技术。关于什么参数才是“不必要的”,这是一个目前依然在研究的领域。 1.1,非结构化剪枝 非结构化剪枝(Unstructured Puning)是指修剪参数的单个元素,比如全连接层中的单个
阅读全文
摘要:这一文档介绍些基础概念吧,权当做一个阶段整理,后面也会慢慢完善。 1. 量化分类: 根据谷歌量化白皮书中定义,分为PTQ和QAT两种,而PTQ又包括两种。 3种量化方式:QAT, PTQ Dynamic, PTQ Static。 1) 量化感知训练 (Quant Aware Training, QA
阅读全文
摘要:int8 量化是一种用于减少模型大小和计算复杂度的方法,特别是在深度学习模型中。它通过将浮点数(通常是 fp32)转换为 8 位整数 (int8),从而减少内存使用和提高计算效率。这在嵌入式设备和移动设备上特别有用。下面是 int8 量化的基本原理及其涉及的过程。 1. 为什么需要量化? 减少模型大
阅读全文
摘要:最近在使用gpu解码数据,数据是base64编码的图片,或者是二进制编码的图片 以前都是使用cpu进行解码,也导致cpu使用率比较高 使用gpu解码以后存在的问题就是:以yolov5为例,使用pgu解码以后,解码线程为4,显存增加了800M,这也太多了,也导致我一张显卡可以开的实例数变少了,整体单卡
阅读全文
摘要:parser.add_argument('--quad', action='store_true', help='quad dataloader') the quad dataloader is an experimental feature we thought of that may allow
阅读全文
摘要:最近,多人反映在torch框架的模型加速后耗时相差不大甚至不如加速前。首先,可以肯定的是,这种结果存在误判,torch的模型加速以后肯定是有加速效果。那么问题出在耗时方法的统计不正确。正确的耗时统计应该是这样:(1)先测试一个batch的数据,使用加速和不加速模型测试推理时间,注意推理时间一定不能够
阅读全文

浙公网安备 33010602011771号