2020 年 12月 9 日随笔档案 - 吴建明wujianming

2020年12月9日

摘要： GPU上如何优化卷积本文将演示如何在TVM中编写高性能卷积实现。我们以平方大小的输入张量和滤波器为例，假设卷积的输入是大批量的。在本例中，使用不同的布局来存储数据，以实现更好的数据局部性。缓冲区布局为HWCN，代表高度、宽度、通道、批次。 Preparation and Algorithm 对于2 阅读全文

posted @ 2020-12-09 16:50 吴建明wujianming 阅读(258) 评论(0) 推荐(0)

如何在CPU上优化GEMM（下）

摘要：如何在CPU上优化GEMM（下） Array Packing 另一个重要的技巧是数组打包。这个技巧是对数组的存储维度进行重新排序，将某个维度上的连续访问模式在平滑后转换为顺序模式。如上图所示，在阻塞计算之后，可以观察到B的数组访问模式（扁平化后），它是规则的但不连续的。期望经过一些转换，可以得到连阅读全文

posted @ 2020-12-09 16:45 吴建明wujianming 阅读(592) 评论(0) 推荐(0)

如何在CPU上优化GEMM（上）

摘要：如何在CPU上优化GEMM（上）（TL；DR）TVM提供了抽象接口，用户分别描述算法和算法的实现组织（所谓的调度）。通常，在高性能调度中编写算法会破坏算法的可读性和模块性。尝试各种看似有希望的时间表是很耗时的。在TVM的帮助下，可以有效地尝试这些调度来提高性能。本文将演示如何使用TVM优化平方矩阅读全文

posted @ 2020-12-09 14:06 吴建明wujianming 阅读(483) 评论(0) 推荐(0)

编译ONNX模型Compile ONNX Models

摘要：编译ONNX模型Compile ONNX Models 本文是一篇介绍如何使用Relay部署ONNX模型的说明。首先，必须安装ONNX包。一个快速的解决方案是安装protobuf编译器，然后 pip install onnx –user 或者参考官方网站： https://github.com/ 阅读全文

posted @ 2020-12-09 13:00 吴建明wujianming 阅读(362) 评论(0) 推荐(0)

深度学习加速器堆栈Deep Learning Accelerator Stack

摘要：深度学习加速器堆栈Deep Learning Accelerator Stack 通用张量加速器（VTA）是一种开放的、通用的、可定制的深度学习加速器，具有完整的基于TVM的编译器堆栈。设计了VTA来揭示主流深度学习加速器最显著和最常见的特征。TVM和VTA一起构成了一个端到端的软硬件深度学习系统堆阅读全文

posted @ 2020-12-09 09:27 吴建明wujianming 阅读(450) 评论(0) 推荐(0)

TVM部署和集成Deploy and Integration

摘要： TVM部署和集成Deploy and Integration 本文包含如何将TVM部署到各种平台以及如何将其与项目集成。与传统的深度学习框架不同。TVM堆栈分为两个主要组件： TVM编译器，完成所有编译和优化 TVM runtime运行时，在目标设备上运行。为了集成编译后的模块，不需要在目标设备阅读全文

posted @ 2020-12-09 09:09 吴建明wujianming 阅读(683) 评论(0) 推荐(0)

Relay张量集成

摘要： Relay张量集成 Introduction NVIDIA TensorRT是一个用于优化深度学习推理的库。这种集成将尽可能多地减轻从中继到TensorRT的算子，在NVIDIA GPU上提供性能提升，而无需调整计划。本文将演示如何安装TensorRT并在启用TensorRT BYOC和运行时的情阅读全文

posted @ 2020-12-09 08:50 吴建明wujianming 阅读(176) 评论(0) 推荐(0)

吴建明

微信视频号：sph0RgSyDYV47z6 快手号：4874645212 抖音号：dy0so323fq2w 小红书号：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087

公告