吴建明wujianming

2024年9月8日

摘要：英特尔FPGA深度学习加速（DLA）套件英特尔FPGA的DLA加速套件，如图11-17所示。图11-17 英特尔FPGA的DLA加速套件深度学习部署工具包（DLDT）中的推理引擎，提供了一个高级的设备无关API来编程推理。这是一些示例代码，如图11-18所示。图11-18 深度学习部署工具包阅读全文

posted @ 2024-09-08 07:01 吴建明wujianming 阅读(113) 评论(0) 推荐(0)

推理引擎流程

摘要：推理引擎流程总结一下推理引擎（IE）调用FPGA设备的流程。开发人员通过IE通用API进行推理调用，IE调用FPGA插件，这调用了运行OpenCL运行时的DLA（英特尔深度学习加速器）。最终发送到实现基元（如卷积、ReLU等）的DLA FPGA IP。如图11-28所示。图11-28 推理引擎（阅读全文

posted @ 2024-09-08 06:53 吴建明wujianming 阅读(42) 评论(0) 推荐(0)

2024年9月6日

在全连接层中进行批量数据并行执行

摘要：在全连接层中进行批量数据并行执行在全连接网络中，为了增加并发性并减少权重的负载，可以同时处理一批图像（来自多个视频通道），如图11-31所示。图11-31 增加并发性并减少权重的负载，可以同时处理一批图像 11.2.6 特征缓存在流处理中，对输入和结果使用双缓冲区。对于下一次循环，只需切换这些阅读全文

posted @ 2024-09-06 17:53 吴建明wujianming 阅读(39) 评论(0) 推荐(0)

2024年9月5日

低比特量化方法

摘要：低比特量化方法计算机里面数值有很多种表示方式，如浮点表示的 FP32、FP16，整数表示的 INT32、INT16、INT8，量化一般是将 FP32、FP16 降低为 INT8 甚至 INT4 等低比特表示，如图7-2所示。图7-2 数值有很多种表示格式模型量化则是一种将浮点值映射到低比特离散阅读全文

posted @ 2024-09-05 17:02 吴建明wujianming 阅读(387) 评论(0) 推荐(0)

2024年9月2日

张量感知量化杂谈

摘要：感知量化训练 QAT 传统的训练后量化将模型从 FP32 量化到 INT8 精度时会产生较大的数值精度损失。感知量化训练（Aware Quantization Training）通过在训练期间模拟量化操作，可以最大限度地减少量化带来的精度损失。 QAT 的流程，如图7-9所示，首先基于预训练好的模型阅读全文

posted @ 2024-09-02 06:15 吴建明wujianming 阅读(166) 评论(0) 推荐(0)

张量量化方法杂谈

摘要：量化方法对比 QAT 可以达到的精度较高，但是往往需要较多的量化训练时间，量化成本比较大。PTQ 的量化过程比较迅速，只需要少量数据集来校准，但是量化后精度往往损失较多，见表7-1。表7-1 量化方法参数对比量化方法功能经典适用场景使用条件易用性精度损失预期收益量化训练 (QAT) 阅读全文

posted @ 2024-09-02 06:11 吴建明wujianming 阅读(172) 评论(0) 推荐(0)

深度学习模型优化杂谈

摘要：深度学习模型优化概述模型压缩跟轻量化网络模型不同，压缩主要是对轻量化或者非轻量化模型执行剪枝、蒸馏、量化等压缩算法和手段，使得模型更加小、更加轻便、更加利于执行。基本介绍随着神经网络模型的复杂性和规模不断增加，模型对存储空间和计算资源的需求越来越多，使得部署和运行成本显著上升。模型压缩的目标是阅读全文

posted @ 2024-09-02 06:05 吴建明wujianming 阅读(194) 评论(0) 推荐(0)

2024年8月29日

错误处理、cuda模型、GPU架构杂谈

摘要：错误处理、cuda模型、GPU架构杂谈错误处理所有编程都需要对错误进行处理，早起的编码错误，编译器会帮搞定，内存错误也能观察出来，但是有些逻辑错误很难发现，甚至到了上线运行时才会被发现，而且有些厉害的bug复现会很难，不总出现，但是很致命，而且CUDA基本都是异步执行的，当错误出现的时候，不一定阅读全文

posted @ 2024-08-29 12:47 吴建明wujianming 阅读(76) 评论(0) 推荐(0)

编写CUDA核函数验与证核函数杂谈

摘要：编写核函数核函数也是一个函数，但是声明核函数有一个比较模板化的方法： global__ void kernel_name(argument list); 注意：声明和定义是不同的，这点CUDA与C语言是一致的在C语言函数前没有的限定符global，CUDA C中还有一些其他在C中没有的限定符，见阅读全文

posted @ 2024-08-29 12:42 吴建明wujianming 阅读(86) 评论(0) 推荐(0)

GPU的Fermi 架构与Kepler架构杂谈

摘要： Fermi 架构 Fermi架构是第一个完整的GPU架构，如图10-15所示。图10-15 Fermi架构是第一个完整的GPU架构 Fermi架构逻辑图，如图10-15所示，具体数据如下: 1）512个加速核心，CUDA核 2）每个CUDA核心都有一个全流水线的整数算数逻辑单元ALU，和一个浮点数阅读全文

posted @ 2024-08-29 12:38 吴建明wujianming 阅读(291) 评论(0) 推荐(0)

吴建明

微信视频号：sph0RgSyDYV47z6 快手号：4874645212 抖音号：dy0so323fq2w 小红书号：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087

公告