2019 年 12月 18 日随笔档案 - 微笑sun

2019年12月18日

bert剪枝系列——Are Sixteen Heads Really Better than One?

摘要： 1，概述剪枝可以分为两种：一种是无序的剪枝，比如将权重中一些值置为0，这种也称为稀疏化，在实际的应用上这种剪枝基本没有意义，因为它只能压缩模型的大小，但很多时候做不到模型推断加速，而在当今的移动设备上更多的关注的是系统的实时相应，也就是模型的推断速度。另一种是结构化的剪枝，比如卷积中对channe 阅读全文

posted @ 2019-12-18 17:12 微笑sun 阅读(2646) 评论(0) 推荐(0) 编辑

tensorflow模型量化实例

摘要： 1，概述模型量化应该是现在最容易实现的模型压缩技术，而且也基本上是在移动端部署的模型的毕竟之路。模型量化基本可以分为两种：post training quantizated和quantization aware training。在pyrotch和tensroflow中都提供了相应的实现接口。对阅读全文

posted @ 2019-12-18 12:09 微笑sun 阅读(8594) 评论(0) 推荐(0) 编辑

Quantization aware training 量化背后的技术——Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference

摘要： 1，概述模型量化属于模型压缩的范畴，模型压缩的目的旨在降低模型的内存大小，加速模型的推断速度（除了压缩之外，一些模型推断框架也可以通过内存，io，计算等优化来加速推断）。常见的模型压缩算法有：量化，剪枝，蒸馏，低秩近似以及紧凑模型设计（如mobileNet）等操作。但在这里有些方法只能起到缩减模阅读全文

posted @ 2019-12-18 11:16 微笑sun 阅读(10439) 评论(0) 推荐(0) 编辑

微笑sun

公告