吴建明wujianming

2021年10月5日

摘要：如何在 CPU 上优化 GEMM (TL;DR) TVM 提供抽象接口，允许用户分别描述算法和算法的实施组织（所谓的调度）。通常，在高性能调度中编写算法，会破坏算法的可读性和模块化。尝试各种看似有前途的调度也很耗时。在 TVM 的帮助下，可以有效地尝试这些调度，提高性能。将演示如何使用 TVM 优阅读全文

posted @ 2021-10-05 06:53 吴建明wujianming 阅读(495) 评论(0) 推荐(0)

2021年10月4日

一些量化(quantization)技巧

摘要：一些量化(quantization)技巧对象：对权重量化，对特征图量化(神经元输出)，对梯度量化(训练过程中) 过程：在inference网络前传，在训练过程(反传) 一步量化(仅对权重量化)，两步量化(对神经元与特征图量化，第一步先对feature map进行量化，第二步再对权重量化)。 32 阅读全文

posted @ 2021-10-04 06:24 吴建明wujianming 阅读(807) 评论(0) 推荐(0)

2021年10月3日

探索 TVM 进行量化方法

摘要：探索 TVM 进行量化方法 Relay框架如上图所示，有两种不同的并行工作正在进行中自动整数量化 - 采用 FP32 框架图，在 Relay 中自动转换为 Int8。接受预量化整数模型 - 这种方法接受预量化模型，引入称为 QNN 的Relay方言，生成 Int8 Relay图。关于 Rel 阅读全文

posted @ 2021-10-03 06:18 吴建明wujianming 阅读(772) 评论(0) 推荐(0)

2021年10月2日

CPU0 处理器的架构及应用

摘要： CPU0 处理器的架构及应用简介 CPU0 是一个 32 位的处理器，包含 R0..R15, IR, MAR, MDR 等缓存器，结构如下图所示。图 1 ：CPU0 处理器的结构其中各个缓存器的用途如下所示： IR 指令缓存器 R0 常数缓存器, 值永远为 0。 R1~R11 通用型缓存器。阅读全文

posted @ 2021-10-02 05:33 吴建明wujianming 阅读(1004) 评论(0) 推荐(0)

2021年10月1日

CPU架构的llvm后端

摘要： Creating an LLVM Backend for the Cpu0 Architecture Backend structure TargetMachine structure Add AsmPrinter Add Cpu0DAGToDAGISel class Handle return r 阅读全文

posted @ 2021-10-01 06:32 吴建明wujianming 阅读(984) 评论(0) 推荐(0)

2021年9月30日

LLVM编译器基础架构与DragonEgg示例

摘要： LLVM编译器基础架构与DragonEgg示例 LLVM 概述 LLVM 项目是模块化和可重用的编译器和工具链技术的集合。LLVM 与传统的虚拟机几乎没有关系。“LLVM”这个名字本身并不是一个首字母缩写词；是项目的全名。 LLVM开始作为一个研究项目，在伊利诺伊大学，与提供能够一个现代的，基于SS 阅读全文

posted @ 2021-09-30 05:46 吴建明wujianming 阅读(367) 评论(0) 推荐(0)

2021年9月29日

高精地图：激光雷达点云与高精地图融合

摘要：高精地图：激光雷达点云与高精地图融合定位精度和更新频率是高精定位的显著特征。精度与频率：根据推算，高精定位需要实现≤25cm 的定位精度，更新频率≥100Hz，因此需要在一般导航定位方案的基础上，与激光雷达、摄像头等感知设备相结合。解决方案：按照定位参考系的不同，分为绝对位置与相对位置两个维度阅读全文

posted @ 2021-09-29 06:27 吴建明wujianming 阅读(3247) 评论(0) 推荐(0)

2021年9月28日

DeepSpeed超大规模模型训练工具

摘要： DeepSpeed超大规模模型训练工具 2021年 2 月份发布了 DeepSpeed。这是一个开源深度学习训练优化库，包含的一个新的显存优化技术—— ZeRO（零冗余优化器），通过扩大规模，提升速度，控制成本，提升可用性，极大地推进了大模型训练能力。DeepSpeed 已经帮助研究人员，开发了图灵阅读全文

posted @ 2021-09-28 06:20 吴建明wujianming 阅读(4287) 评论(0) 推荐(0)

2021年9月27日

C++高级编程总结

摘要： C++高级编程总结 C++高级编程笔记 1. 头文件添加注释(文件名, 作者, 函数简介, 日期). 2. 当头文件数目较多时, 应将头文件放在include目录下, 源文件放在source目录下. 3. const常量有数据类型, 宏常量没有数据类型. 4. 对于重载赋值运算符, 应该用"引用传递阅读全文

posted @ 2021-09-27 06:32 吴建明wujianming 阅读(476) 评论(0) 推荐(0)

2021年9月26日

LLVM数据流分析的理论

摘要： LLVM数据流分析的理论标量优化（scalar目录）：死代码消除（BDCE.cpp[code]，ADCE.cpp[code]，DCE.cpp[code]）, 全局值编号（GVN.cpp[code]）, 代码提升（ConstantHoisting.cpp[code]），公共子表达式消除（Earl 阅读全文

posted @ 2021-09-26 06:11 吴建明wujianming 阅读(948) 评论(0) 推荐(0)

吴建明

微信视频号：sph0RgSyDYV47z6 快手号：4874645212 抖音号：dy0so323fq2w 小红书号：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087

公告