会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
吴建明
微信视频号:sph0RgSyDYV47z6 快手号:4874645212 抖音号:dy0so323fq2w 小红书号:95619019828 B站1:UID:3546863642871878 B站2:UID: 3546955410049087 知乎视频:https://www.zhihu.com/people/wujianming_110117/zvideos 知乎:https://www.zhihu.com/people/wujianming_110117
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
301
302
303
304
305
306
307
308
309
···
400
下一页
2020年12月24日
为x86 CPU自动调度神经网络
摘要: 为x86 CPU自动调度神经网络 对特定设备和工作负载进行自动调试对于获得最佳性能至关重要。这是有关如何使用自动调度器为x86 CPU调试整个神经网络的文档。 为了自动调试神经网络,将网络划分为小的子图,并对其进行独立调试。每个子图被视为一个搜索任务。任务调度程序可以对时间进行分片,并为这些任务动态
阅读全文
posted @ 2020-12-24 06:16 吴建明wujianming
阅读(211)
评论(0)
推荐(0)
2020年12月23日
TVM Reduction降低算力
摘要: TVM Reduction降低算力 这是有关如何降低算力TVM的介绍材料。像sum / max / min这样的关联约简运算符是线性代数运算的典型构造块。 本文将演示如何降低TVM算力。 from __future__ import absolute_import, print_function i
阅读全文
posted @ 2020-12-23 09:03 吴建明wujianming
阅读(488)
评论(0)
推荐(0)
Vitis-AI集成
摘要: Vitis-AI集成 Vitis-AI是Xilinx的开发堆栈,用于在Xilinx平台(包括边端设备和Alveo卡)上进行硬件加速的AI推理。它由优化的IP,工具,库,模型和示例设计组成。设计时考虑到了高效率和易用性,充分发挥了Xilinx FPGA和ACAP上AI加速的全部潜力。 TVM内部当前的
阅读全文
posted @ 2020-12-23 08:31 吴建明wujianming
阅读(1630)
评论(0)
推荐(0)
中继TensorRT集成
摘要: 中继TensorRT集成 介绍 NVIDIA TensorRT是用于优化深度学习推理的库。这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提高性能。 本文将演示如何安装TensorRT,并在启用TensorRT BYOC和运行时runtim
阅读全文
posted @ 2020-12-23 07:33 吴建明wujianming
阅读(316)
评论(0)
推荐(0)
HLS后端示例
摘要: HLS后端示例 TVM支持带有SDAccel的Xilinx FPGA板。这是有关如何将TVM部署到AWS F1 FPGA实例的文档。 此功能仍处于试验阶段。暂时无法使用SDAccel部署端到端神经网络。 本文使用两个python脚本。 build.py-用于合成FPGA位流的脚本。 import t
阅读全文
posted @ 2020-12-23 06:47 吴建明wujianming
阅读(215)
评论(0)
推荐(0)
TVM安装常用问题
摘要: TVM安装常用问题 如何添加新的硬件后端 如果硬件后端支持LLVM,则可以通过设置正确的目标三元组来直接生成代码target。 如果目标硬件是GPU,请尝试使用cuda,opencl或vulkan后端。 如果目标硬件是特殊的加速器,请checkout VTA:深度学习加速器堆栈,并将代码生成到TVM
阅读全文
posted @ 2020-12-23 06:35 吴建明wujianming
阅读(186)
评论(0)
推荐(0)
使用Auto TensorCore CodeGen优化Matmul
摘要: 使用Auto TensorCore CodeGen优化Matmul 本文将演示如何使用TVM Auto TensorCore CodeGen在Volta / Turing GPU上编写高性能matmul调度。这是一个生成tensorcore内核的解决方案,其中大多数转换都是通过ir传递完成的。用户还
阅读全文
posted @ 2020-12-23 06:19 吴建明wujianming
阅读(308)
评论(0)
推荐(0)
2020年12月22日
如何使用TensorCores优化卷积
摘要: 如何使用TensorCores优化卷积 本文将演示如何在TVM中使用TensorCores编写高性能的卷积计划。假设卷积的输入有大量数据。首先介绍如何在GPU上优化卷积。 TensorCore简介 每个Tensor核心都提供一个4x4x4的矩阵处理阵列,该阵列可以运行 ,其中A,B,C和D是4x4矩
阅读全文
posted @ 2020-12-22 08:50 吴建明wujianming
阅读(502)
评论(0)
推荐(0)
如何在GPU上优化卷积
摘要: 本文将演示如何在TVM中编写高性能的卷积实现。以平方大小的输入张量和滤波器为例,并假设卷积的输入量很大。使用不同的布局来存储数据,以实现更好的数据局部性。缓冲区布局为HWCN,代表高度,宽度,通道,批次。 准备和算法 将固定大小用于256通道和14 x 14尺寸的输入张量。批处理大小为256。卷积过
阅读全文
posted @ 2020-12-22 08:37 吴建明wujianming
阅读(246)
评论(0)
推荐(0)
VTA:深度学习加速器堆栈
摘要: VTA:深度学习加速器堆栈 多功能Tensor加速器(VTA)是一个开放的,通用的,可定制的深度学习加速器,具有完整的基于TVM的编译器堆栈。设计VTA来展示主流深度学习加速器的最显着和共同的特征。TVM和VTA共同构成了一个端到端的硬件-软件深度学习系统堆栈,其中包括硬件设计,驱动程序,JIT运行
阅读全文
posted @ 2020-12-22 08:12 吴建明wujianming
阅读(584)
评论(0)
推荐(0)
上一页
1
···
301
302
303
304
305
306
307
308
309
···
400
下一页
公告