上一页 1 ··· 301 302 303 304 305 306 307 308 309 ··· 400 下一页
摘要: 为x86 CPU自动调度神经网络 对特定设备和工作负载进行自动调试对于获得最佳性能至关重要。这是有关如何使用自动调度器为x86 CPU调试整个神经网络的文档。 为了自动调试神经网络,将网络划分为小的子图,并对其进行独立调试。每个子图被视为一个搜索任务。任务调度程序可以对时间进行分片,并为这些任务动态 阅读全文
posted @ 2020-12-24 06:16 吴建明wujianming 阅读(211) 评论(0) 推荐(0)
摘要: TVM Reduction降低算力 这是有关如何降低算力TVM的介绍材料。像sum / max / min这样的关联约简运算符是线性代数运算的典型构造块。 本文将演示如何降低TVM算力。 from __future__ import absolute_import, print_function i 阅读全文
posted @ 2020-12-23 09:03 吴建明wujianming 阅读(488) 评论(0) 推荐(0)
摘要: Vitis-AI集成 Vitis-AI是Xilinx的开发堆栈,用于在Xilinx平台(包括边端设备和Alveo卡)上进行硬件加速的AI推理。它由优化的IP,工具,库,模型和示例设计组成。设计时考虑到了高效率和易用性,充分发挥了Xilinx FPGA和ACAP上AI加速的全部潜力。 TVM内部当前的 阅读全文
posted @ 2020-12-23 08:31 吴建明wujianming 阅读(1630) 评论(0) 推荐(0)
摘要: 中继TensorRT集成 介绍 NVIDIA TensorRT是用于优化深度学习推理的库。这种集成将使尽可能多的算子从Relay转移到TensorRT,从而无需调整调度,即可在NVIDIA GPU上提高性能。 本文将演示如何安装TensorRT,并在启用TensorRT BYOC和运行时runtim 阅读全文
posted @ 2020-12-23 07:33 吴建明wujianming 阅读(316) 评论(0) 推荐(0)
摘要: HLS后端示例 TVM支持带有SDAccel的Xilinx FPGA板。这是有关如何将TVM部署到AWS F1 FPGA实例的文档。 此功能仍处于试验阶段。暂时无法使用SDAccel部署端到端神经网络。 本文使用两个python脚本。 build.py-用于合成FPGA位流的脚本。 import t 阅读全文
posted @ 2020-12-23 06:47 吴建明wujianming 阅读(215) 评论(0) 推荐(0)
摘要: TVM安装常用问题 如何添加新的硬件后端 如果硬件后端支持LLVM,则可以通过设置正确的目标三元组来直接生成代码target。 如果目标硬件是GPU,请尝试使用cuda,opencl或vulkan后端。 如果目标硬件是特殊的加速器,请checkout VTA:深度学习加速器堆栈,并将代码生成到TVM 阅读全文
posted @ 2020-12-23 06:35 吴建明wujianming 阅读(186) 评论(0) 推荐(0)
摘要: 使用Auto TensorCore CodeGen优化Matmul 本文将演示如何使用TVM Auto TensorCore CodeGen在Volta / Turing GPU上编写高性能matmul调度。这是一个生成tensorcore内核的解决方案,其中大多数转换都是通过ir传递完成的。用户还 阅读全文
posted @ 2020-12-23 06:19 吴建明wujianming 阅读(308) 评论(0) 推荐(0)
摘要: 如何使用TensorCores优化卷积 本文将演示如何在TVM中使用TensorCores编写高性能的卷积计划。假设卷积的输入有大量数据。首先介绍如何在GPU上优化卷积。 TensorCore简介 每个Tensor核心都提供一个4x4x4的矩阵处理阵列,该阵列可以运行 ,其中A,B,C和D是4x4矩 阅读全文
posted @ 2020-12-22 08:50 吴建明wujianming 阅读(502) 评论(0) 推荐(0)
摘要: 本文将演示如何在TVM中编写高性能的卷积实现。以平方大小的输入张量和滤波器为例,并假设卷积的输入量很大。使用不同的布局来存储数据,以实现更好的数据局部性。缓冲区布局为HWCN,代表高度,宽度,通道,批次。 准备和算法 将固定大小用于256通道和14 x 14尺寸的输入张量。批处理大小为256。卷积过 阅读全文
posted @ 2020-12-22 08:37 吴建明wujianming 阅读(246) 评论(0) 推荐(0)
摘要: VTA:深度学习加速器堆栈 多功能Tensor加速器(VTA)是一个开放的,通用的,可定制的深度学习加速器,具有完整的基于TVM的编译器堆栈。设计VTA来展示主流深度学习加速器的最显着和共同的特征。TVM和VTA共同构成了一个端到端的硬件-软件深度学习系统堆栈,其中包括硬件设计,驱动程序,JIT运行 阅读全文
posted @ 2020-12-22 08:12 吴建明wujianming 阅读(584) 评论(0) 推荐(0)
上一页 1 ··· 301 302 303 304 305 306 307 308 309 ··· 400 下一页