摘要:
定义computation 整体流程类似于tvm的计算描述 定义输入、输出tensor,指定名称、数据类型和shape a = tensor_input('a', dtype='float32', shape=[10]) b = tensor_input('b', dtype='float32', 阅读全文
摘要:
AMOS: Enabling Automatic Mapping for Tensor Computations On Spatial Accelerators with Hardware Abstraction Abstract 为了实现性能提升,硬件专用化是一个趋势。空间硬件加速器利用专门的层次 阅读全文
摘要:
Abstract 在多种多样的设备上部署深度学习模型是一个重要的话题,专用硬件的蓬勃发展引入了一系列加速原语和多维张量计算方法。这些新的加速原语和不断出现的新的机器学习模型,带来了工程上的巨大挑战。本文提出了TensorIR,是为了优化这些有张量计算原语的张量化程序而设计的编译器抽象。TensorI 阅读全文
摘要:
Ansor:Generating High-Performance Tensor Program for Deep Learning Abstract 高性能的张量程序对于保证深度神经网络的高效执行十分关键,但是在不同硬件平台上获取高性能的张量程序并不容易。近年的研究中,深度学习系统依赖硬件供应商提 阅读全文
摘要:
## 下载 CUDA官网找到对应版本 https://developer.nvidia.com/cuda-11-7-0-download-archive?target_os=Linux&target_arch=x86_64&Distribution=CentOS&target_version=7&t 阅读全文
摘要:
# Introduction to TOPI 本文介绍TVM算子库(TOPI),TOPI提供numpy-style的通用计算和比TVM更加高度抽象的schedules,本文中将展示如何使用TOPI帮助我们写TVM的样板文件 ``` import tvm import tvm.testing from 阅读全文
摘要:
# Making your Hardware Accelerator TVM-ready with UMA 本文介绍 Universal Modular Accelerator Interface(UMA),UMA提供了易用的API将新的硬件加速器整合进TVM。 展示如何使用UMA将硬件加速器整合进 阅读全文
摘要:
# Quick Start Tutorial for Compiling Deep Learning Models 本文将展示如何使用Relay python前端构建神经网络,并使用TVM为Nvidia GPU创建实时运行库,需要有cuda版本的TVM和llvm。 ## TVM支持的硬件后端 图中展 阅读全文
摘要:
# Cross Compilation and RPC 本文将介绍交叉编译以及TVM通过RPC在远程设备上执行。 通过交叉编译和RPC,可以在本地机器上编译程序,然后在远程设备上运行。这在远程设备的资源有限时十分重要,例如Rasberry Pi和移动平台,本文将介绍Rasberry Pi的CPU例子 阅读全文
摘要:
# 使用张量表达式 我们将注意力转向如何使用张量表达式(Tensor Expression)(TE)来定义张量的计算,并应用循环优化。TE用pure的函数语言(每个表达式没有副作用),定义了张量的计算。整体上查看TVM的上下文时,Relay用一系列算子的集合描述了一个计算,其中每个算子都可以使用TE 阅读全文