会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
吴建明
微信视频号:sph0RgSyDYV47z6 快手号:4874645212 抖音号:dy0so323fq2w 小红书号:95619019828 B站1:UID:3546863642871878 B站2:UID: 3546955410049087
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
98
99
100
101
102
103
104
105
106
···
368
下一页
2024年9月5日
低比特量化方法
摘要: 低比特量化方法 计算机里面数值有很多种表示方式,如浮点表示的 FP32、FP16,整数表示的 INT32、INT16、INT8,量化一般是将 FP32、FP16 降低为 INT8 甚至 INT4 等低比特表示,如图7-2所示。 图7-2 数值有很多种表示格式 模型量化则是一种将浮点值映射到低比特离散
阅读全文
posted @ 2024-09-05 17:02 吴建明wujianming
阅读(387)
评论(0)
推荐(0)
2024年9月2日
张量感知量化杂谈
摘要: 感知量化训练 QAT 传统的训练后量化将模型从 FP32 量化到 INT8 精度时会产生较大的数值精度损失。感知量化训练(Aware Quantization Training)通过在训练期间模拟量化操作,可以最大限度地减少量化带来的精度损失。 QAT 的流程,如图7-9所示,首先基于预训练好的模型
阅读全文
posted @ 2024-09-02 06:15 吴建明wujianming
阅读(166)
评论(0)
推荐(0)
张量量化方法杂谈
摘要: 量化方法对比 QAT 可以达到的精度较高,但是往往需要较多的量化训练时间,量化成本比较大。PTQ 的量化过程比较迅速,只需要少量数据集来校准,但是量化后精度往往损失较多,见表7-1。 表7-1 量化方法参数对比 量化方法 功能 经典适用场景 使用条件 易用性 精度损失 预期收益 量化训练 (QAT)
阅读全文
posted @ 2024-09-02 06:11 吴建明wujianming
阅读(172)
评论(0)
推荐(0)
深度学习模型优化杂谈
摘要: 深度学习模型优化概述 模型压缩跟轻量化网络模型不同,压缩主要是对轻量化或者非轻量化模型执行剪枝、蒸馏、量化等压缩算法和手段,使得模型更加小、更加轻便、更加利于执行。 基本介绍 随着神经网络模型的复杂性和规模不断增加,模型对存储空间和计算资源的需求越来越多,使得部署和运行成本显著上升。模型压缩的目标是
阅读全文
posted @ 2024-09-02 06:05 吴建明wujianming
阅读(195)
评论(0)
推荐(0)
2024年8月29日
错误处理、cuda模型、GPU架构杂谈
摘要: 错误处理、cuda模型、GPU架构杂谈 错误处理 所有编程都需要对错误进行处理,早起的编码错误,编译器会帮搞定,内存错误也能观察出来,但是有些逻辑错误很难发现,甚至到了上线运行时才会被发现,而且有些厉害的bug复现会很难,不总出现,但是很致命,而且CUDA基本都是异步执行的,当错误出现的时候,不一定
阅读全文
posted @ 2024-08-29 12:47 吴建明wujianming
阅读(76)
评论(0)
推荐(0)
编写CUDA核函数验与证核函数杂谈
摘要: 编写核函数 核函数也是一个函数,但是声明核函数有一个比较模板化的方法: global__ void kernel_name(argument list); 注意:声明和定义是不同的,这点CUDA与C语言是一致的 在C语言函数前没有的限定符global,CUDA C中还有一些其他在C中没有的限定符,见
阅读全文
posted @ 2024-08-29 12:42 吴建明wujianming
阅读(86)
评论(0)
推荐(0)
GPU的Fermi 架构与Kepler架构杂谈
摘要: Fermi 架构 Fermi架构是第一个完整的GPU架构,如图10-15所示。 图10-15 Fermi架构是第一个完整的GPU架构 Fermi架构逻辑图,如图10-15所示,具体数据如下: 1)512个加速核心,CUDA核 2)每个CUDA核心都有一个全流水线的整数算数逻辑单元ALU,和一个浮点数
阅读全文
posted @ 2024-08-29 12:38 吴建明wujianming
阅读(292)
评论(0)
推荐(0)
CUDA编程结构、存储管理、线程管理杂谈
摘要: CUDA编程结构、存储管理、线程管理杂谈 CUDA编程结构 一个异构环境,通常有多个CPU多个GPU,他们都通过PCIe总线相互通信,也是通过PCIe总线分隔开的。所以要区分一下两种设备的内存: 1)主机:CPU及其内存 2)设备:GPU及其内存 这两个内存从硬件到软件都是隔离的(CUDA6.0 以
阅读全文
posted @ 2024-08-29 12:29 吴建明wujianming
阅读(110)
评论(0)
推荐(0)
2024年8月27日
OpenCL+GCC+TVM+LLVM+MLIR
摘要: OpenCL+GCC+TVM+LLVM+MLIR 如何在使用OpenCL、GCC、TVM、LLVM和MLIR的环境中编译和链接一个项目。提供一个使用C++和这些工具链进行简单计算的示例。 首先,确保已经安装了OpenCL、GCC、TVM、LLVM和MLIR。 接下来,需要安装相应工具集,例如: #
阅读全文
posted @ 2024-08-27 03:33 吴建明wujianming
阅读(198)
评论(0)
推荐(0)
2024年8月15日
分布式训练策略杂谈
摘要: 分布式训练策略杂谈 5.1 常见的分布式并行策略 5.1.1 为什么分布式训练越来越流行 近年来,深度学习被广泛应用到各个领域,包括计算机视觉、语言理解、语音识别、广告推荐等。在这些不同的领域中,一个共同的特点就是模型规模越来越大,比如 GPT-3 模型的参数量达到1750亿。即使用1024张 80
阅读全文
posted @ 2024-08-15 07:49 吴建明wujianming
阅读(168)
评论(0)
推荐(0)
上一页
1
···
98
99
100
101
102
103
104
105
106
···
368
下一页
公告