模型压缩 - 随笔分类 - 微笑sun

bert剪枝系列——Are Sixteen Heads Really Better than One?

摘要：1，概述剪枝可以分为两种：一种是无序的剪枝，比如将权重中一些值置为0，这种也称为稀疏化，在实际的应用上这种剪枝基本没有意义，因为它只能压缩模型的大小，但很多时候做不到模型推断加速，而在当今的移动设备上更多的关注的是系统的实时相应，也就是模型的推断速度。另一种是结构化的剪枝，比如卷积中对channe 阅读全文

posted @ 2019-12-18 17:12 微笑sun 阅读(3066) 评论(0) 推荐(0)

tensorflow模型量化实例

摘要：1，概述模型量化应该是现在最容易实现的模型压缩技术，而且也基本上是在移动端部署的模型的毕竟之路。模型量化基本可以分为两种：post training quantizated和quantization aware training。在pyrotch和tensroflow中都提供了相应的实现接口。对阅读全文

posted @ 2019-12-18 12:09 微笑sun 阅读(9047) 评论(0) 推荐(0)

Quantization aware training 量化背后的技术——Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

摘要：1，概述模型量化属于模型压缩的范畴，模型压缩的目的旨在降低模型的内存大小，加速模型的推断速度（除了压缩之外，一些模型推断框架也可以通过内存，io，计算等优化来加速推断）。常见的模型压缩算法有：量化，剪枝，蒸馏，低秩近似以及紧凑模型设计（如mobileNet）等操作。但在这里有些方法只能起到缩减模阅读全文

posted @ 2019-12-18 11:16 微笑sun 阅读(11448) 评论(0) 推荐(0)

NLP中的预训练语言模型（四）—— 小型化bert（DistillBert, ALBERT, TINYBERT）

摘要：bert之类的预训练模型在NLP各项任务上取得的效果是显著的，但是因为bert的模型参数多，推断速度慢等原因，导致bert在工业界上的应用很难普及，针对预训练模型做模型压缩是促进其在工业界应用的关键，今天介绍三篇小型化bert模型——DistillBert, ALBERT, TINYBERT。一，阅读全文

posted @ 2019-10-21 20:55 微笑sun 阅读(9876) 评论(0) 推荐(0)

微笑sun

随笔分类 - 模型压缩

公告