上一页 1 ··· 269 270 271 272 273 274 275 276 277 ··· 367 下一页
摘要: 如何使用TensorCores优化卷积 本文将演示如何在TVM中使用TensorCores编写高性能的卷积计划。假设卷积的输入有大量数据。首先介绍如何在GPU上优化卷积。 TensorCore简介 每个Tensor核心都提供一个4x4x4的矩阵处理阵列,该阵列可以运行 ,其中A,B,C和D是4x4矩 阅读全文
posted @ 2020-12-22 08:50 吴建明wujianming 阅读(497) 评论(0) 推荐(0)
摘要: 本文将演示如何在TVM中编写高性能的卷积实现。以平方大小的输入张量和滤波器为例,并假设卷积的输入量很大。使用不同的布局来存储数据,以实现更好的数据局部性。缓冲区布局为HWCN,代表高度,宽度,通道,批次。 准备和算法 将固定大小用于256通道和14 x 14尺寸的输入张量。批处理大小为256。卷积过 阅读全文
posted @ 2020-12-22 08:37 吴建明wujianming 阅读(232) 评论(0) 推荐(0)
摘要: VTA:深度学习加速器堆栈 多功能Tensor加速器(VTA)是一个开放的,通用的,可定制的深度学习加速器,具有完整的基于TVM的编译器堆栈。设计VTA来展示主流深度学习加速器的最显着和共同的特征。TVM和VTA共同构成了一个端到端的硬件-软件深度学习系统堆栈,其中包括硬件设计,驱动程序,JIT运行 阅读全文
posted @ 2020-12-22 08:12 吴建明wujianming 阅读(568) 评论(0) 推荐(0)
摘要: TVM设计与构架构建 本文档适用于希望了解TVM体系结构和/或在项目上进行积极开发的开发人员。该页面的组织如下: • 实例编译流程Example Compilation Flow,描述TVM把一个模型的高级描述到可部署模块的步骤。 • “逻辑体系结构组件” Logical Architecture 阅读全文
posted @ 2020-12-22 07:46 吴建明wujianming 阅读(927) 评论(0) 推荐(0)
摘要: Cuda Stream流分析 Stream 一般来说,cuda c并行性表现在下面两个层面上: Kernel level Grid level Stream和event简介 Cuda stream是指一堆异步的cuda操作,他们按照host代码调用的顺序执行在device上。 典型的cuda编程模式 阅读全文
posted @ 2020-12-22 06:30 吴建明wujianming 阅读(3082) 评论(0) 推荐(0)
摘要: 本文通过此脚本从def文件自动生成。不要直接修改,而是编辑算子定义。 对于算子输入/输出的可辩别的,它可以是可辩别的、不可辩别的或未定义的。如果未指定变量的可辩别的,则该变量具有未定义的可辩别的。 ai.onnx (default) OperatorSince version Abs 13, 6, 阅读全文
posted @ 2020-12-21 08:26 吴建明wujianming 阅读(8028) 评论(0) 推荐(2)
摘要: 从PyTorch到ONNX的端到端AlexNet 这是一个简单的脚本,可将Torchvision中定义的经过预训练的AlexNet导出到ONNX中。运行一轮推理Inference,然后将生成的跟踪模型保存到alexnet.onnx: import torch import torchvision d 阅读全文
posted @ 2020-12-21 07:44 吴建明wujianming 阅读(382) 评论(0) 推荐(0)
摘要: 使用TENSORRT和NVIDIA-DOCKER部署深部神经网络 当前部署工作流 阅读全文
posted @ 2020-12-21 07:07 吴建明wujianming 阅读(674) 评论(0) 推荐(0)
摘要: 用于ONNX的TensorRT后端 解析ONNX模型以使用TensorRT执行。 另请参阅TensorRT文档。 有关最近更改的列表,请参见changelog。 支持的TensorRT版本 Master分支上的开发适用于具有完整维度和动态架构shape支持的TensorRT 7.2.1的最新版本。 阅读全文
posted @ 2020-12-21 06:23 吴建明wujianming 阅读(1503) 评论(0) 推荐(0)
摘要: 循环IRNNv2Layer实现 IRNNv2Layer实现循环层,例如循环神经网络(RNN),门控循环单元(GRU)和长期短期记忆(LSTM)。支持的类型为RNN,GRU和LSTM。它执行循环操作,该操作由几个众所周知的循环神经网络(RNN)“单元”之一定义。 层描述 该层接受输入序列 X,初始隐藏 阅读全文
posted @ 2020-12-18 14:39 吴建明wujianming 阅读(155) 评论(0) 推荐(0)
上一页 1 ··· 269 270 271 272 273 274 275 276 277 ··· 367 下一页