性能优化 - 随笔分类 - 海_纳百川

摘要：阅读全文

posted @ 2024-08-05 10:55 海_纳百川阅读(50) 评论(0) 推荐(0)

摘要：模型剪枝是用在模型的一种优化技术，旨在减少神经网络中不必要的参数，从而降低模型的复杂性和计算负载，进一步提高模型的效率。模型剪枝的流程：约束训练（constained training）、剪枝（prune）、回调训练（finetune) 本篇主要记录自己YOLOv8模型剪枝的全过程，主要参考：YO 阅读全文

posted @ 2024-08-05 10:28 海_纳百川阅读(3189) 评论(2) 推荐(1)

pytorch中中的模型剪枝方法

摘要：一，剪枝分类所谓模型剪枝，其实是一种从神经网络中移除"不必要"权重或偏差（weigths/bias）的模型压缩技术。关于什么参数才是“不必要的”，这是一个目前依然在研究的领域。 1.1，非结构化剪枝非结构化剪枝（Unstructured Puning）是指修剪参数的单个元素，比如全连接层中的单个阅读全文

posted @ 2024-08-05 10:05 海_纳百川阅读(616) 评论(0) 推荐(0)

量化基本知识点梳理-三种量化方式和量化框架以及trt

摘要：这一文档介绍些基础概念吧，权当做一个阶段整理，后面也会慢慢完善。 1. 量化分类：根据谷歌量化白皮书中定义，分为PTQ和QAT两种，而PTQ又包括两种。 3种量化方式：QAT, PTQ Dynamic, PTQ Static。 1）量化感知训练 (Quant Aware Training, QA 阅读全文

posted @ 2024-07-25 22:08 海_纳百川阅读(2852) 评论(0) 推荐(1)

int8量化过程中涉及到的原理

摘要：int8 量化是一种用于减少模型大小和计算复杂度的方法，特别是在深度学习模型中。它通过将浮点数（通常是 fp32）转换为 8 位整数 (int8)，从而减少内存使用和提高计算效率。这在嵌入式设备和移动设备上特别有用。下面是 int8 量化的基本原理及其涉及的过程。 1. 为什么需要量化？减少模型大阅读全文

posted @ 2024-07-22 14:20 海_纳百川阅读(1012) 评论(0) 推荐(0)

关于使用gpu解码图片的一些想法

摘要：最近在使用gpu解码数据，数据是base64编码的图片，或者是二进制编码的图片以前都是使用cpu进行解码，也导致cpu使用率比较高使用gpu解码以后存在的问题就是：以yolov5为例，使用pgu解码以后，解码线程为4，显存增加了800M，这也太多了，也导致我一张显卡可以开的实例数变少了，整体单卡阅读全文

posted @ 2023-01-11 19:05 海_纳百川阅读(273) 评论(0) 推荐(0)

yolov5的quad dataloader参数

摘要：parser.add_argument('--quad', action='store_true', help='quad dataloader') the quad dataloader is an experimental feature we thought of that may allow 阅读全文

posted @ 2022-10-13 16:12 海_纳百川阅读(380) 评论(0) 推荐(0)

《原创》在torch模型进行trt加速后正确的耗时分析方法

摘要：最近，多人反映在torch框架的模型加速后耗时相差不大甚至不如加速前。首先，可以肯定的是，这种结果存在误判，torch的模型加速以后肯定是有加速效果。那么问题出在耗时方法的统计不正确。正确的耗时统计应该是这样：（1）先测试一个batch的数据，使用加速和不加速模型测试推理时间，注意推理时间一定不能够阅读全文

posted @ 2022-06-01 23:56 海_纳百川阅读(676) 评论(0) 推荐(0)

《原创》浅谈AI领域的数据结构

摘要：阅读全文

posted @ 2022-05-30 21:27 海_纳百川阅读(84) 评论(0) 推荐(0)

《原创》CUDA初识

摘要：阅读全文

posted @ 2022-05-30 21:15 海_纳百川阅读(41) 评论(0) 推荐(0)

《原创》如何实现TensorRT-int8精度的加速

摘要：阅读全文

posted @ 2022-05-30 21:10 海_纳百川阅读(50) 评论(0) 推荐(0)

《原创》如何快速进行TensorRT加速

摘要：阅读全文