会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
吴建明
微信视频号:sph0RgSyDYV47z6 快手号:4874645212 抖音号:dy0so323fq2w 小红书号:95619019828 B站1:UID:3546863642871878 B站2:UID: 3546955410049087
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
201
202
203
204
205
206
207
208
209
···
367
下一页
2021年10月5日
如何在 CPU 上优化 GEMM
摘要: 如何在 CPU 上优化 GEMM (TL;DR) TVM 提供抽象接口,允许用户分别描述算法和算法的实施组织(所谓的调度)。通常,在高性能调度中编写算法,会破坏算法的可读性和模块化。尝试各种看似有前途的调度也很耗时。在 TVM 的帮助下,可以有效地尝试这些调度,提高性能。 将演示如何使用 TVM 优
阅读全文
posted @ 2021-10-05 06:53 吴建明wujianming
阅读(495)
评论(0)
推荐(0)
2021年10月4日
一些量化(quantization)技巧
摘要: 一些量化(quantization)技巧 对象:对权重量化,对特征图量化(神经元输出),对梯度量化(训练过程中) 过程:在inference网络前传,在训练过程(反传) 一步量化(仅对权重量化), 两步量化(对神经元与特征图量化,第一步先对feature map进行量化,第二步再对权重量化)。 32
阅读全文
posted @ 2021-10-04 06:24 吴建明wujianming
阅读(807)
评论(0)
推荐(0)
2021年10月3日
探索 TVM 进行量化方法
摘要: 探索 TVM 进行量化方法 Relay框架 如上图所示,有两种不同的并行工作正在进行中 自动整数量化 - 采用 FP32 框架图,在 Relay 中自动转换为 Int8。 接受预量化整数模型 - 这种方法接受预量化模型,引入称为 QNN 的Relay方言,生成 Int8 Relay图。 关于 Rel
阅读全文
posted @ 2021-10-03 06:18 吴建明wujianming
阅读(772)
评论(0)
推荐(0)
2021年10月2日
CPU0 处理器的架构及应用
摘要: CPU0 处理器的架构及应用 简介 CPU0 是一个 32 位的处理器,包含 R0..R15, IR, MAR, MDR 等缓存器,结构如下图所示。 图 1 :CPU0 处理器的结构 其中各个缓存器的用途如下所示: IR 指令缓存器 R0 常数缓存器, 值永远为 0。 R1~R11 通用型缓存器。
阅读全文
posted @ 2021-10-02 05:33 吴建明wujianming
阅读(1004)
评论(0)
推荐(0)
2021年10月1日
CPU架构的llvm后端
摘要: Creating an LLVM Backend for the Cpu0 Architecture Backend structure TargetMachine structure Add AsmPrinter Add Cpu0DAGToDAGISel class Handle return r
阅读全文
posted @ 2021-10-01 06:32 吴建明wujianming
阅读(984)
评论(0)
推荐(0)
2021年9月30日
LLVM编译器基础架构与DragonEgg示例
摘要: LLVM编译器基础架构与DragonEgg示例 LLVM 概述 LLVM 项目是模块化和可重用的编译器和工具链技术的集合。LLVM 与传统的虚拟机几乎没有关系。“LLVM”这个名字本身并不是一个首字母缩写词;是项目的全名。 LLVM开始作为一个研究项目,在伊利诺伊大学,与提供能够一个现代的,基于SS
阅读全文
posted @ 2021-09-30 05:46 吴建明wujianming
阅读(367)
评论(0)
推荐(0)
2021年9月29日
高精地图:激光雷达点云与高精地图融合
摘要: 高精地图:激光雷达点云与高精地图融合 定位精度和更新频率是高精定位的显著特征。 精度与频率:根据推算,高精定位需要实现≤25cm 的定位精度,更新频率≥100Hz,因此需要在一般导航定位方案的基础上,与激光雷达、摄像头等感知设备相结合。 解决方案:按照定位参考系的不同,分为绝对位置与相对位置两个维度
阅读全文
posted @ 2021-09-29 06:27 吴建明wujianming
阅读(3247)
评论(0)
推荐(0)
2021年9月28日
DeepSpeed超大规模模型训练工具
摘要: DeepSpeed超大规模模型训练工具 2021年 2 月份发布了 DeepSpeed。这是一个开源深度学习训练优化库,包含的一个新的显存优化技术—— ZeRO(零冗余优化器),通过扩大规模,提升速度,控制成本,提升可用性,极大地推进了大模型训练能力。DeepSpeed 已经帮助研究人员,开发了图灵
阅读全文
posted @ 2021-09-28 06:20 吴建明wujianming
阅读(4287)
评论(0)
推荐(0)
2021年9月27日
C++高级编程总结
摘要: C++高级编程总结 C++高级编程笔记 1. 头文件添加注释(文件名, 作者, 函数简介, 日期). 2. 当头文件数目较多时, 应将头文件放在include目录下, 源文件放在source目录下. 3. const常量有数据类型, 宏常量没有数据类型. 4. 对于重载赋值运算符, 应该用"引用传递
阅读全文
posted @ 2021-09-27 06:32 吴建明wujianming
阅读(476)
评论(0)
推荐(0)
2021年9月26日
LLVM数据流分析的理论
摘要: LLVM数据流分析的理论 标量优化(scalar目录): 死代码消除(BDCE.cpp[code],ADCE.cpp[code],DCE.cpp[code]), 全局值编号(GVN.cpp[code]), 代码提升(ConstantHoisting.cpp[code]), 公共子表达式消除(Earl
阅读全文
posted @ 2021-09-26 06:11 吴建明wujianming
阅读(948)
评论(0)
推荐(0)
上一页
1
···
201
202
203
204
205
206
207
208
209
···
367
下一页
公告