模型压缩与部署 - 随笔分类 - 牛犁heart

使用HuggingFace 模型并预测

摘要：下载HuggingFace 模型首先打开网址：https://huggingface.co/models 这个网址是huggingface/transformers支持的所有模型，目前大约一千多个。搜索gpt2（其他的模型类似，比如bert-base-uncased等），并点击进去。进入之后，可阅读全文

posted @ 2025-05-17 21:55 牛犁heart 阅读(330) 评论(0) 推荐(0)

CUDA原子操作

摘要：这节主要涉及到一个多线程情况下存在的数据竞争问题 -- 多个线程同时访问共享数据时，由于没有正确的同步机制，导致数据出现不一致的情况。 C/C++ 多线程中，可以通过互斥锁(mutex)、原子操作(atomic，C++11 也提供了原子操作库，如std::atomic，用于实现原子加法、原子赋值等操阅读全文

posted @ 2024-01-01 22:47 牛犁heart 阅读(550) 评论(0) 推荐(0)

CUDA:页锁定内存(pinned memory)和按页分配内存(pageable memory )

摘要：CUDA架构而言，主机端的内存分为两种，一种是可分页内存(pageable memroy)，一种是页锁定内存(page-lock或 pinned)。可分页内存是由操作系统API malloc()在主机上分配，页锁定内存是由CUDA函数cudaMallocHost()和cudaHostAlloc( 阅读全文

posted @ 2023-11-19 17:32 牛犁heart 阅读(5644) 评论(1) 推荐(2)

CUDA简单介绍

摘要：### 并行计算并行计算(parallel computing)是一种计算形式，它将大的问题分解为许多可以并行的小问题。并行计算分为：任务并行(task parallel)和数据并行(data parallel) * 任务并行指多个任务同时执行 * 数据并行指多个数据可以同时处理，每个数据由独立阅读全文

posted @ 2023-08-06 21:05 牛犁heart 阅读(297) 评论(0) 推荐(0)

CPU TFLOPS 计算

摘要：转载：https://www.cnblogs.com/Matrix_Yao/p/9550967.html 深度学习等计算密集型任务很关注设备的峰值算力，落实到具体指标，就是大家都很关心**T(FL)OPS (Tera (FLoat) OPerations per Second)**。这里，**ope 阅读全文

posted @ 2023-07-29 11:22 牛犁heart 阅读(2667) 评论(0) 推荐(0)

Intel指令集及SIMD数据加速

摘要：###查看CPU相关信息 ![image](https://img2023.cnblogs.com/blog/1059417/202307/1059417-20230720230552535-1377656398.png) 执行结果举例： ![image](https://img2023.cnblo 阅读全文

posted @ 2023-07-27 20:48 牛犁heart 阅读(1391) 评论(0) 推荐(0)

使用torch pruning工具进行结构化剪枝

摘要：网络结构定义 import torch import torch.nn as nn import torch.nn.functional as F import torch_pruning as tp from torchvision.datasets import CIFAR10 from tor 阅读全文

posted @ 2022-12-04 21:56 牛犁heart 阅读(1417) 评论(0) 推荐(0)

Torch-Pruning工具箱

摘要：Torch-Pruning 通道剪枝网络实现加速的工作。 Torch pruning是进行结构剪枝的pytorch工具箱，和pytorch官方提供的基于mask的非结构化剪枝不同，工具箱移除整个通道剪枝，自动发现层与层剪枝的依赖关系，可以处理Densenet、ResNet和DeepLab 特性卷积阅读全文

posted @ 2022-12-04 18:47 牛犁heart 阅读(2823) 评论(0) 推荐(0)

剪枝在pytorch中是如何实现的？

摘要：Pytorch中剪枝源码可参考： https://github.com/pytorch/pytorch/blob/master/torch/nn/utils/prune.py 可参考： pytorch中函数接口：https://runebook.dev/zh-CN/docs/pytorch/-ind 阅读全文

posted @ 2022-11-27 22:12 牛犁heart 阅读(699) 评论(0) 推荐(0)

pytorch中的剪枝操作

摘要：深度学习技术依赖于过参数化模型，这是不利于部署的，相反，生物神经网络是使用高效的稀疏连接的。通过减少模型中的参数数量来压缩模型的技术非常重要，为减少内存、电池和硬件的消耗，而牺牲准确性，实现在设备上部署轻量级模型。在Pytorch中，主要通过torch.nn.utils.prune来进行剪枝，以阅读全文

posted @ 2022-11-20 22:40 牛犁heart 阅读(2150) 评论(0) 推荐(1)

网络剪枝 -- 理论

摘要：剪枝分类从network pruning 的粒度来说，可以分为结构化剪枝(structured pruning) 和非结构化剪枝(Unstructured pruning) 两类早期的一些方法是基于非结构化的，它裁剪的粒度为单个神经元。如果对kernel进行非结构化剪枝，则得到的kernel 阅读全文

posted @ 2022-11-11 00:20 牛犁heart 阅读(2481) 评论(0) 推荐(0)

知识蒸馏 -- 简单代码实现

摘要：知识蒸馏还是先来简单回顾下知识蒸馏的基本知识。知识蒸馏的核心思想就是：通过一个预训练的大的、复杂网络(教师网络)将其所学到的知识迁移到另一个小的、轻量的网络(学生网络)上，实现模型的轻量化。目标：以loss为标准，尽量的降低学生网络与教师网络之间的差异，实现学生网络学习教师网络所教授的知识。阅读全文

posted @ 2022-11-06 23:08 牛犁heart 阅读(4498) 评论(0) 推荐(0)

知识蒸馏 -- 定位蒸馏LD

摘要：定位蒸馏定位蒸馏：Localization Distillation,简称LD 论文地址： Localization Distillation for Dense Object Detection 开源代码地址： https://github.com/HikariTJU/LD MMDetectio 阅读全文

posted @ 2022-11-06 00:42 牛犁heart 阅读(885) 评论(0) 推荐(0)

编译原理：代码生成

摘要：这编译的最后一步，也就是生成目标代码，则必须跟特定CPU架构相关。这就是编译器的后端。不过，后端不只是简单地生成目标代码，它还要完成与机器相关的一些优化工作，确保生成的目标代码的性能最高。本讲将从机器相关的优化入手，看看编译器如何通过指令选择/寄存器分配/指令排序和基于机器代码的优化等步骤，完成阅读全文

posted @ 2022-09-25 00:41 牛犁heart 阅读(1373) 评论(0) 推荐(0)

编译原理：代码优化

摘要：常见的代码优化方法对代码做优化的方法有很多，可按照下面两个维度进行分类：第一个分类维度，是机器无关的优化与机器相关的优化。机器无关的优化与硬件特征无关，比如把常数值在编译期计算出来(常数折叠)。而机器相关的优化则需要利用某种硬件特有的特征，比如SIMD指令可以在一条指令里完成多个数据的计算。阅读全文

posted @ 2022-09-24 17:47 牛犁heart 阅读(2522) 评论(0) 推荐(3)

编译原理：中间代码IR

摘要：IR,中间代码(Intermediate Representation,有时也称为Intermediate Code,IC)，它是编译器中很重要的一种数据结构。编译器在做完前端工作以后，首先就生成IR,并在此基础上执行各种优化算法，最后再生成目标代码。 IR的用途和层次设计IR的目的，是要满足编阅读全文

posted @ 2022-09-24 14:49 牛犁heart 阅读(7001) 评论(0) 推荐(1)

编译原理：运行时机制

摘要：在语义分析之后，编译过程就开始进入了中后端。经过前端阶段的处理分析，编译器已经充分理解了源代码的含义，准备好把前端处理的结果（带有标注信息的 AST、符号表）翻译成目标代码了。如果想做好翻译工作，编译器必须理解目标代码。而要理解目标代码，它就必须要理解目标代码是如何被执行的。通常情况下，程序有两阅读全文

posted @ 2022-09-21 23:50 牛犁heart 阅读(973) 评论(0) 推荐(0)

编译原理：python编译器--运行时机制

摘要：python的运行时机制的核心 -- python对象机制的设计理解字节码的执行过程用 GDB 跟踪执行一个简单的示例程序，它只有一行：“a=1”。对应的字节码如下。其中，前两行指令实现了"a = 1"的功能（后两行是根据Python的规定，在执行完一个模块之后，缺省返回一个None值） PS 阅读全文

posted @ 2022-09-18 15:42 牛犁heart 阅读(1077) 评论(0) 推荐(0)

编译原理：python编译器--从AST到字节码

摘要：首先了解下从AST到生成字节码的整个过程：编译过程 Python编译器把词法分析和语法分析叫做 "解析(Parse)", 并且放在Parser目录下。从AST到生成字节码的过程，才叫做 "编译(Compile)" Python编译工作的主干代码是在**Python/compile.c **，阅读全文

posted @ 2022-09-16 00:09 牛犁heart 阅读(1740) 评论(0) 推荐(0)

编译原理：剖析python编译阶段

摘要：Python编译器 GDB跟踪python编译器的执行过程，在tokenizer.c的tok_get()函数中打一个断点，通过GDB查看python的运行，使用bt命令打印输出，结果如下图所示整理后可得到：该过程就是运行python并执行到词法分析环节的一个执行路径： 1.首先是 python. 阅读全文

posted @ 2022-09-15 21:41 牛犁heart 阅读(773) 评论(1) 推荐(0)

牛犁heart

Stay Hungry，Stay Foolilsh

随笔分类 - 模型压缩与部署

公告