上一页 1 ··· 201 202 203 204 205 206 207 208 209 ··· 367 下一页
摘要: 如何在 CPU 上优化 GEMM (TL;DR) TVM 提供抽象接口,允许用户分别描述算法和算法的实施组织(所谓的调度)。通常,在高性能调度中编写算法,会破坏算法的可读性和模块化。尝试各种看似有前途的调度也很耗时。在 TVM 的帮助下,可以有效地尝试这些调度,提高性能。 将演示如何使用 TVM 优 阅读全文
posted @ 2021-10-05 06:53 吴建明wujianming 阅读(495) 评论(0) 推荐(0)
摘要: 一些量化(quantization)技巧 对象:对权重量化,对特征图量化(神经元输出),对梯度量化(训练过程中) 过程:在inference网络前传,在训练过程(反传) 一步量化(仅对权重量化), 两步量化(对神经元与特征图量化,第一步先对feature map进行量化,第二步再对权重量化)。 32 阅读全文
posted @ 2021-10-04 06:24 吴建明wujianming 阅读(807) 评论(0) 推荐(0)
摘要: 探索 TVM 进行量化方法 Relay框架 如上图所示,有两种不同的并行工作正在进行中 自动整数量化 - 采用 FP32 框架图,在 Relay 中自动转换为 Int8。 接受预量化整数模型 - 这种方法接受预量化模型,引入称为 QNN 的Relay方言,生成 Int8 Relay图。 关于 Rel 阅读全文
posted @ 2021-10-03 06:18 吴建明wujianming 阅读(772) 评论(0) 推荐(0)
摘要: CPU0 处理器的架构及应用 简介 CPU0 是一个 32 位的处理器,包含 R0..R15, IR, MAR, MDR 等缓存器,结构如下图所示。 图 1 :CPU0 处理器的结构 其中各个缓存器的用途如下所示: IR 指令缓存器 R0 常数缓存器, 值永远为 0。 R1~R11 通用型缓存器。 阅读全文
posted @ 2021-10-02 05:33 吴建明wujianming 阅读(1004) 评论(0) 推荐(0)
摘要: Creating an LLVM Backend for the Cpu0 Architecture Backend structure TargetMachine structure Add AsmPrinter Add Cpu0DAGToDAGISel class Handle return r 阅读全文
posted @ 2021-10-01 06:32 吴建明wujianming 阅读(984) 评论(0) 推荐(0)
摘要: LLVM编译器基础架构与DragonEgg示例 LLVM 概述 LLVM 项目是模块化和可重用的编译器和工具链技术的集合。LLVM 与传统的虚拟机几乎没有关系。“LLVM”这个名字本身并不是一个首字母缩写词;是项目的全名。 LLVM开始作为一个研究项目,在伊利诺伊大学,与提供能够一个现代的,基于SS 阅读全文
posted @ 2021-09-30 05:46 吴建明wujianming 阅读(367) 评论(0) 推荐(0)
摘要: 高精地图:激光雷达点云与高精地图融合 定位精度和更新频率是高精定位的显著特征。 精度与频率:根据推算,高精定位需要实现≤25cm 的定位精度,更新频率≥100Hz,因此需要在一般导航定位方案的基础上,与激光雷达、摄像头等感知设备相结合。 解决方案:按照定位参考系的不同,分为绝对位置与相对位置两个维度 阅读全文
posted @ 2021-09-29 06:27 吴建明wujianming 阅读(3247) 评论(0) 推荐(0)
摘要: DeepSpeed超大规模模型训练工具 2021年 2 月份发布了 DeepSpeed。这是一个开源深度学习训练优化库,包含的一个新的显存优化技术—— ZeRO(零冗余优化器),通过扩大规模,提升速度,控制成本,提升可用性,极大地推进了大模型训练能力。DeepSpeed 已经帮助研究人员,开发了图灵 阅读全文
posted @ 2021-09-28 06:20 吴建明wujianming 阅读(4287) 评论(0) 推荐(0)
摘要: C++高级编程总结 C++高级编程笔记 1. 头文件添加注释(文件名, 作者, 函数简介, 日期). 2. 当头文件数目较多时, 应将头文件放在include目录下, 源文件放在source目录下. 3. const常量有数据类型, 宏常量没有数据类型. 4. 对于重载赋值运算符, 应该用"引用传递 阅读全文
posted @ 2021-09-27 06:32 吴建明wujianming 阅读(476) 评论(0) 推荐(0)
摘要: LLVM数据流分析的理论 标量优化(scalar目录): 死代码消除(BDCE.cpp[code],ADCE.cpp[code],DCE.cpp[code]), 全局值编号(GVN.cpp[code]), 代码提升(ConstantHoisting.cpp[code]), 公共子表达式消除(Earl 阅读全文
posted @ 2021-09-26 06:11 吴建明wujianming 阅读(948) 评论(0) 推荐(0)
上一页 1 ··· 201 202 203 204 205 206 207 208 209 ··· 367 下一页