TVM自定义修改代码示例

一．TVM设备添加代码

因为要添加的设备是一种类似于GPU的加速卡，TVM中提供了对GPU编译器的各种支持，有openCl，OpenGL和CUDA等，这里选取比较熟悉的CUDA进行模仿生成。总体上看，TVM是一个多层的结构。

TVM在python这一层提供了相关的设备接口，然后使用tvm.build真正的编译，然后调用get_source函数来获得想要的源码（或者IR，如llvm选项提供的是LLVM的IR，或者PTX选项提供的就是NVPTX类型的IR）。

因此，添加新设备(device)推测的步骤就是：

补全相应的python接口
找到python和C交互的接口
正确维护中间代码的IR pass变换中新设备引入的特性
代码生成对新设备和新特性的支持
添加编译选项支持(非必须)

以下就分别就这4个步骤进行介绍。

1. 补全相应的python接口

我之前给的那个测试代码中使用的是字符串解析的方式，但是从其它tutorial中发现，还存在一种tvm.target.cuda()的设备建立方式，这个很明显比字符串解析，相对找起来容易（字符串最终对应的也是这种方式）。按照这种方式找到了tvm/python/tvm/target.py文件中，这个类中定义了现在能支持的target。添加新的target叫做dpu。

def dpu(model='unknown', options=None):

    """Returns a dpu target.

    Parameters

    ----------

    model: str

        The model of dpu device

    options : str or list of str

        Additional options

"""

    opts = _merge_opts(['-model=%s' % model], options)

return _api_internal._TargetCreate("dpu", *opts)

每个设备都包括硬件自身的上下文信息和硬件上运行软件运行时，就是runtime，在TVM中相关的软件运行时信息在tvm/python/tvm/_ffi/runtime_ctypes.py文件中，添加对dpu的支持

在class TVMContext的两个掩码MASK2STR和STR2MASK中分别添加：

13: 'dpu',

和

'dpu':13,

2. 找到python和C交互的接口

回到刚才的target.py文件中，核心的代码只有两句

opts = _merge_opts(['-model=%s' % model], options)

return _api_internal._TargetCreate("dpu", *opts)

第一句是将model和相关的options组合在一起，就是个字符串相关的拼接，没有特别多需要关注的内容，后边有一个_api_internel._TargetCreate的函数调用，从名字上看起来非常的重要，是创建真正的Target的，但是，在tvm/python文件中，无论如何都找不到该函数的实现。

前边已经提到过TVM中使用的是python提供接口，真正的实现都是在C++中，因此，这里猜测是调用了C语言的实现。下面列一下TVM相关的文件夹

3rdparty是很多第三方库的实现

build 目录是建立的编译后的.so文件所在的位置

docs 是相关的文档

include C++代码的include的主目录

jvm 是java相关的文件夹

nnvm 是中间的nnvm算子所在的目录

python 是python文件所在的目录，所有与python相关的都在该目录中

rust apps conda docker golang web verilog都是特有领域中的内容，对一般项目没有影响

tests 是测试文件，中间包含了作者写的很多测试，是学习TVM的另一个手段

Tutorial是官网上相关的历程

vta 是TVM的软件栈

cmake包含了所有的编译配置文件，和CmakeLists.txt共同工作

src 是全部的C++代码

topi 是Tensor Operator Index Library，后续进行详细介绍

在src目录下搜索_TargetCreate，得到src/codegen/build_module.cc:116中有相关的内容

TVM_REGISTER_API("_TargetCreate")

.set_body([](TVMArgs args, TVMRetValue* ret) {

  std::string target_name = args[0];

  std::vector<std::string> options;

  for (int i = 1; i < args.num_args; ++i) {

    std::string arg = args[i];

    options.push_back(arg);

  *ret = CreateTarget(target_name, options);

});

这段代码就是通过一种TVM_REGISTER_API的注册机制，注册_TargetCreate函数，真正的函数体是.set_body内执行的，实际上C++中tvm::CreateTarget函数。TVM_REGISTER_API的注册机制在TVM项目中非常普遍，其实现在项目中也有，不是主要的研究内容，不需要改，所以不另行赘述。

3. 正确维护中间代码的IR pass变换中新设备引入的特性

在src/codegen/build_module.cc文件中的tvm::CreateTarget函数中添加对dpu的支持

else if (target_name == "dpu") {

    t->device_type = kDLDPU;

这里边的kDLDPU是一个DLDeviceType类型值，实现是在3rdparty/dlpack/include/dlpack/dlpack.h中添加的

kDLDPU =13,

在include/tvm/runtime/device_api.h：200补充对kDLDPU的支持

case kDLDPU: return "dpu";

Target部分添加完了，还需要补充运行时的内容。

运行时的内容在src/runtime/目录下，需要在module.cc中添加对dpu 的支持。

在RuntimeEnabled函数中，添加

else if (target == "dpu") {

    f_name = "device_api.dpu";

这只是添加了一个名字的支持，需要新建一个dpu目录，里边存放DPUModuleNode、DPUWorkspace等支持，测试代码的getSource函数的真正实现，存放在这里边，主要模仿CUDA和openCl的实现进行。目前存放有dpu_common.h、dpu_device_api.cc、dpu_module.cc、dpu_module.h四个文件，大概1K行代码，实现逻辑不是很复杂。

4. 代码生成对新设备和新特性的支持

上边准备好了module部分，也就是运行时，但是这里第一步想要实现的是一个能在dpu编译器上运行的C代码。需要在codegen部分添加对dpu这个设备的支持。

codegen是在tvm.build（Python）中形成的，在其对应的C++实现上是codegen/build_module.cc文件，之前添加了名字的支持，现在还需要添加这个真正的Target调用点

Target DPU(const std::vector<std::string>& options ) {

  return CreateTarget("dpu", options);

最主要的codegen对DPU的支持是新建CodeGenDPU类，这个类的实现在该目录的codegen_dpu.h和codegen_dpu.cc文件内。其它的函数可以不实现，有两个函数必须实现

runtime::Module BuildDPU(Array<LoweredFunc> funcs) {

  using tvm::runtime::Registry;

  bool output_ssa = false;

  CodeGenDPU cg;

  cg.Init(output_ssa);

  for (LoweredFunc f : funcs) {

    cg.AddFunction(f);

  std::string code = cg.Finish();

  if (const auto* f = Registry::Get("tvm_callback_dpu_postproc")) {

    code = (*f)(code).operator std::string();

  return DPUModuleCreate(code, "dpu", ExtractFuncInfo(funcs), code);

TVM_REGISTER_API("codegen.build_dpu")

.set_body([](TVMArgs args, TVMRetValue* rv) {

    *rv = BuildDPU(args[0]);

});

5. 添加编译选项支持

上边可以说是完成了从设备添加到代码生成的部分，但是如果只有上边，新添加的设备一直无法运行。但如果仅是对一个设备进行修改的话，这部分没有必要。后来排查发现是部分代码未编译进去导致的。所以开始修改cmake配置。

在上一个TVM调试文档中提到，编译需要打开LLVM和CUDA选项，这里新添加了dpu的设备，需要增加一个新的编译选项，在cmake/config.cmake中添加

1 2	`#Build DPU` `set(USE_DPU ON)`

cmake目录下存在着modules和util目录，modules是指定了相关设备的目录等配置，util文件夹下的内容，用来寻找如CUDA等的配置。暂时只需要modules下添加DPU.cmake，这部分的配置代码相对比较简单，就是指定runtime对应的目录。

# DPU Module

if(USE_DPU)

message(STATUS "Build with DPU support")

file(GLOB RUNTIME_DPU_SRCS src/runtime/dpu/*.cc)

list(APPEND RUNTIME_SRCS ${RUNTIME_DPU_SRCS})

else()

message(STATUS "NOT BUILD DPU SUPPORT")

endif(USE_DPU)

这里修改完config.cmake，需要重新拷贝到build目录下，以使下次配置生效。编译tvm时是cmake目录下的config.cmake和CMakeLists.txt共同工作生效。在CMakeLists.txt中添加

1 2	`tvm_option(USE_DPU "Build with DPU"` `ON)` `include(cmake/modules/DPU.cmake)`

然后在build目录下，运行cmake命令，重新编译生效。

1 2	`cmake -DCMAKE_BUILD_TYPE=Debug ../` `make`

这里不加-DCMAKE_BUILD_TYPE=Debug，C++代码无法进行调试。

二．TVM代码生成

本节主要介绍TVM的代码生成流程，即调用relay.build或tvm.build后发生了什么，将深入到TVM的源代码进行剖析。（这里采用的依然是TVM v0.6）

首先区分两个build的区别：tvm.build主要针对单一算子（参照Tensor Expression一文），relay.build是针对整个模型进行编译（参照GCN优化一文），Relay最后也会调用到tvm::build做代码生成。

relay.build

通常的模型编译，由以下两条语句完成。

# Build with Relay

with relay.build_config(opt_level=0):

graph, lib, params = relay.build(func, target, params=params)

跟踪细节

如何进行代码跟踪，一方面可以直接通过VS Code在函数上方Alt+单击跳转，另一方面如果想有更直观的印象，可以利用pycallgraph进行可视化（需先用pip安装），代码如下，用GCN的代码编译模块。

from pycallgraph import PyCallGraph

from pycallgraph.output import GraphvizOutput

from pycallgraph import Config

graphviz = GraphvizOutput()

graphviz.output_file = 'relay_callgraph.png'

config = Config(max_depth=5)

with PyCallGraph(output=graphviz,config=config):

# Build with Relay

    with relay.build_config(opt_level=0):

graph, lib, params = relay.build(func, target, params=params)

各函数之间的调用关系，如tvm.relay.build_module.build->tvm.relay.build_module.BuildModule.build
FFI的打包调用关系，C++和Python在哪些函数上实现互调。
深色标注的结点（执行时间长）实际上也是核心的执行步骤，即关键路径
结点的调用次数，如tvm.build_module.lower调用了14次，对应的正是14个Relay算子，可见Relay IR计算图可视化。

对relay.build进行跟踪，跳转进来是python/tvm/relay/build_module.py（这里是因为在relay/__init__.py中，将build函数直接import到relay的命名空间，跳过了build_module这一层），其中的build函数是build_module内的全局函数(helper)。

def build(mod, target=None, target_host=None, params=None):

# do somthing

if isinstance(autotvm.DispatchContext.current, autotvm.FallbackContext):

tophub_context = autotvm.tophub.context(list(target.values()))

else:

tophub_context = autotvm.util.EmptyContext()

with tophub_context:

bld_mod = BuildModule()

graph_json, mod, params = bld_mod.build(func, target, target_host, params)

return graph_json, mod, params

先是寻找AutoTVM是否有预先tune好的参数记录，然后构造tophub_context，在内部构建了BuildModule后，跳转到BuildModule.build，然后返回BuildModule.__init__中的内容。

class BuildModule(object):

"""Build a Relay function to run on TVM graph runtime. This class is used

to expose the `RelayBuildModule` APIs implemented in C++.

"""

def __init__(self):

self.mod = _build_module._BuildModule()

self._get_graph_json = self.mod["get_graph_json"]

self._get_module = self.mod["get_module"]

self._build = self.mod["build"]

self._optimize = self.mod["optimize"]

self._set_params_func = self.mod["set_params"]

self._get_params_func = self.mod["get_params"]

def build(self, func, target=None, target_host=None, params=None):

target = _update_target(target)

# Setup the params.

        if params:

self._set_params(params)

# Build the function

        self._build(func, target, target_host)

# Get artifacts

        graph_json = self.get_json()

mod = self.get_module()

params = self.get_params()

return graph_json, mod, params

_build_module._BuildModule()通过FFI，在python/tvm/relay/_build_module.py中，与C++函数建立联系（tvm._ffi._cytpes.function.Function.__call__）。

from tvm._ffi.function import _init_api

_init_api("relay.build_module", __name__)

对应的C++函数在src/relay/backend/build_module.cc

runtime::Module RelayBuildCreate() {

auto exec = make_object<RelayBuildModule>();

return runtime::Module(exec);

TVM_REGISTER_GLOBAL("relay.build_module._BuildModule")

.set_body([](TVMArgs args, TVMRetValue* rv) {

*rv = RelayBuildCreate();

});

就是注册了一个RelayBuildModule供调用，由于主要用的是build函数，因此到RelayBuildModule中找对应的函数。这里TVM用PackedFunc做了一层封装。

PackedFunc GetFunction(const std::string& name,

const ObjectPtr<Object>& sptr_to_self) final {

// ...

if (name == "build") {

return PackedFunc([sptr_to_self, this](TVMArgs args, TVMRetValue* rv) {

CHECK_EQ(args.num_args, 3);

this->Build(args[0], args[1], args[2]);

});

// ...

就是调用的是this->Build，跳转过去会指向BuildRelay。

  void BuildRelay(

Function func,

const std::unordered_map<std::string, tvm::runtime::NDArray>& params) {

// Optimize input Relay Function and returns Relay Module

relay::Module relay_module = Optimize(func, targets_, params);

// Get the updated function.

func = relay_module->Lookup("main");

// Generate code for the updated function.

graph_codegen_ = std::unique_ptr<GraphCodegen>(new GraphCodegen());

graph_codegen_->Init(nullptr, targets_);

graph_codegen_->Codegen(func);

ret_.graph_json = graph_codegen_->GetJSON();

ret_.params = graph_codegen_->GetParams();

auto lowered_funcs = graph_codegen_->GetLoweredFunc();

if (lowered_funcs.size() == 0) {

LOG(WARNING) << "no lowered funcs exist in the compiled module";

} else {

ret_.mod = tvm::build(

lowered_funcs,

target_host_,

BuildConfig::Current());

经过多番跳转，终于到达build的核心模块，再来看TVM逐步做的工作。

优化
计算图生成
后端代码生成

优化

先是优化Optimize，可以看到这里的优化主要是设备无关的优化，graph-level针对tensor运算的优化。（这里的优化pass都已经在C++中实现，先前版本的NNVM似乎还是在Python中调用）

  relay::Module Optimize(

Function func,

const TargetsMap& targets,

const std::unordered_map<std::string, runtime::NDArray>& params) {

// BindParamsByName(func, params)

// Perform Module->Module optimizations.

relay::Module relay_module = relay::ModuleNode::FromExpr(func);

Array<Pass> pass_seqs;

// Run all dialect legalization passes.

// ...

pass_seqs.push_back(transform::SimplifyInference());

//

// ...fskip

//

pass_seqs.push_back(transform::EliminateCommonSubexpr(fskip));

pass_seqs.push_back(transform::CombineParallelConv2D(3));

pass_seqs.push_back(transform::CombineParallelDense(3));

pass_seqs.push_back(transform::FoldConstant());

pass_seqs.push_back(transform::FoldScaleAxis());

pass_seqs.push_back(transform::CanonicalizeCast());

pass_seqs.push_back(transform::CanonicalizeOps());

// ...AlterOpLayout

pass_seqs.push_back(transform::FoldConstant());

// Create a sequential pass and perform optimizations.

transform::Pass seq = transform::Sequential(pass_seqs);

// ... judge & do

relay_module = seq(relay_module);

// Handle heterogeneous compilation.

transform::PassContext pass_ctx = PassContext::Current();

if (targets_.size() > 1) {

relay_module =

RunDeviceAnnotationPass(relay_module, pass_ctx->fallback_device);

// Fuse the operations if it is needed.

relay_module = transform::FuseOps()(relay_module);

relay_module = transform::InferType()(relay_module);

CHECK(relay_module.defined());

return relay_module;

计算图生成

对应GraphCodegen类，同样调用src/relay/backend/build_module.cc中的relay.build_module._GraphRuntimeCodegen（一样是FFI），然后跳转至src/relay/backend/graph_runtime_codegen.cc，其中已经用TVM_REGISTER_GLOBAL注册了对应函数，即用GraphRuntimeCodegenModule生成对应Object。

因此实际graph_codegen_->Codegen的函数是一个PackedFunc，定义在GraphRuntimeCodegen.Codegen，将relay::Function func进行遍历，然后生成计算图。

后端代码生成

Relay得到lower后的函数，最后一步则是交给tvm::build做代码生成，跳转到src/codegen/build_module.cc中的build函数（注意这里重载了几个版本），然后跳转到核心build，注意这里的build函数支持异构编译，只要再inputs划分好不同硬件设施即可。

// Build for heterogeneous execution.

runtime::Module build(const Map<Target, Array<LoweredFunc>>& inputs,

const Target& target_host,

const BuildConfig& config) {

Array<LoweredFunc> fhost_all;

std::vector<runtime::Module> device_modules;

Target target_host_val = target_host;

if (!target_host.defined()) {

for (const auto& it : inputs) {

if (it.first->device_type == kDLCPU) {

target_host_val = it.first;

break;

if (!target_host_val.defined()) {

target_host_val = DefaultTargetHost(target_host_val);

for (const auto& it : inputs) {

auto host_dev_funcs =

split_dev_host_funcs(it.second, it.first, target_host_val, config);

auto& fhost = host_dev_funcs[0];

auto& fdevice = host_dev_funcs[1];

// Get the module for a certain target.

runtime::Module mdev = DeviceBuild(fdevice, it.first);

for (const auto& it : fhost) {

fhost_all.push_back(it);

device_modules.push_back(mdev);

runtime::Module mhost = codegen::Build(fhost_all, target_host_val->str());

// Import all modules

for (const auto& it : device_modules) {

if (it.operator->()) {

mhost.Import(it);

return mhost;

最核心是mhost = codegen::Build，最后跳转过去就开始调用代码生成模块了（src/codegen/codegen.cc）。

runtime::Module Build(const Array<LoweredFunc>& funcs,

const std::string& target) {

// do something

std::string build_f_name = "codegen.build_" + mode;

// the build function.

const PackedFunc* bf = runtime::Registry::Get(build_f_name);

runtime::Module m = transformed_funcs.empty() ?

(*bf)(funcs, target) :

(*bf)(transformed_funcs, target);

return m;

以生成LLVM IR为例，codegen.build_llvm会在src/codegen/llvm/llvm_module.cc注册，然后调用同个文件中的LLVMModuleNode->Init。这时会跳转到src/codegen/llvm/codegen_llvm.cc中的CodeGenLLVM类进行代码生成。

tvm.build

用tvm.build对算子进行编译，按照以下方式进行调用，例子来自Tensor Expression。

s = tvm.create_schedule(C.op)

tgt = "llvm" # "cuda"

fadd = tvm.build(s,[A,B,C],target=tgt,name="myadd")

调用tvm.build后首先跳转到python/tvm/build_module.py，其中的build函数主要做两个步骤：

lower高层次代码
后端代码生成

代码变换

lower高层次代码对应

flist = lower(inputs,args,name=name,binds=binds)

lower函数同样在python/tvm/build_module.py中，类似于relay.build中的Optimize，但这里执行的是operator-level的优化，主要针对循环变换。

def lower(sch,

args,

name="default_function",

binds=None,

simple_mode=False):

# initialization

# Phase 0

    if isinstance(sch, schedule.Schedule):

stmt = form_body(sch)

for f in lower_phase0:

stmt = f(stmt)

compact = ir_pass.VerifyCompactBuffer(stmt)

binds, arg_list = get_binds(args, compact, binds)

# Phase 1

    stmt = ir_pass.RewriteForTensorCore(stmt, sch, binds)

stmt = ir_pass.StorageFlatten(stmt, binds, 64, cfg.instrument_bound_checkers)

stmt = ir_pass.CanonicalSimplify(stmt)

for f in lower_phase1:

stmt = f(stmt)

# Phase 2

    if not simple_mode:

stmt = ir_pass.LoopPartition(stmt, cfg.partition_const_loop)

if cfg.disable_vectorize:

stmt = ir_pass.SkipVectorize(stmt)

else:

stmt = ir_pass.VectorizeLoop(stmt)

stmt = ir_pass.InjectVirtualThread(stmt)

stmt = ir_pass.InjectDoubleBuffer(stmt, cfg.double_buffer_split_loop)

stmt = ir_pass.StorageRewrite(stmt)

stmt = ir_pass.UnrollLoop(

stmt,

cfg.auto_unroll_max_step,

cfg.auto_unroll_max_depth,

cfg.auto_unroll_max_extent,

cfg.unroll_explicit)

for f in lower_phase2:

stmt = f(stmt)

# Phase 3

    stmt = ir_pass.Simplify(stmt)

stmt = ir_pass.RemoveNoOp(stmt)

if not cfg.disable_select_rewriting:

stmt = ir_pass.RewriteUnsafeSelect(stmt)

for f in lower_phase3:

stmt = f(stmt)

# Instrument BoundCheckers

    if cfg.instrument_bound_checkers:

stmt = ir_pass.InstrumentBoundCheckers(stmt)

if simple_mode:

return stmt

return ir_pass.MakeAPI(stmt, name, arg_list, 0, cfg.restricted_func)

优化Pass的主体实施都在src/api/api_pass.cc中，以tvm.ir_pass进行注册（由于C++函数中已经在tvm的命名空间里，搜索时直接搜ir_pass，出来对应的API）。

代码生成

lower完之后就进入到后端代码生成，对应build函数中的

mhost = codegen.build_module(fhost_all, str(target_host))

同样，跳转至tvm/codegen.py，初始化tvm.codegen的API codegen._Build，调用FFI，跳转至src/api/api_codegen.cc，最后跳转至src/codegen/codegen.cc中的tvm::Build，后端代码生成与relay.build相同。

三．TVM代码生成分析

本节介绍一种生成代码方式tvm.build的流程。先以官方提供的一个向量相加程序为例，简单熟悉下Tensor Expression和lower后的代码，tvm版本都是0.7dev。

简单例子

Get Started with Tensor

Expressiontvm.apache.org/docs/tutorials/get_started/tensor_expr_get_started.html#sphx-glr-tutorials-get-started-tensor-expr-get-started-py

import tvm

import numpy as np

# Tensor Expression

# args: (shape, label)

A = tvm.placeholder((10,), name='A')

B = tvm.placeholder((10,), name='B')

# args: (shape, function, label)

# function represented in lambda expression (element-wise)

#     lambda axis1, axis2, ... : f(axis1, axis2, ...)

C = tvm.compute((10,), lambda i: A[i] + B[i], name="C")

# generate schedule

s = tvm.create_schedule(C.op)

# print low level codes

print(tvm.lower(s,[A,B,C],simple_mode=True))

上述代码先定义了两个维度为10的张量A、B，C，一个维度为10的张量，每一个维度的值等于A、B对应值和，使用tvm接口定义了一个compute。s为tvm创建的计算调度schedule，按照默认情况，s会生成朴素的嵌套循环形式，实际可以通过打印输出lower后的代码验证。

for (i: int32, 0, 10) {

  C_2[i] = ((float32*)A_2[i] + (float32*)B_2[i])

可以对原始schedule做一些优化，如将循环分割为内外两层循环，可以调用split方法实现。

# split(parent[, factor, nparts])

# Split the stage either by factor providing outer scope, or both. Return outer, inner vaiable of iteration.

bx, tx = s[C].split(C.op.axis[0],factor=2)

print(tvm.lower(s,[A,B,C],simple_mode=True))

打印lower后的代码，可以发现确实将原来的单层循环分割为内外循环。

for (i.outer: int32, 0, 5) {

    for (i.inner: int32, 0, 2) {

      C_2[((i.outer*2) + i.inner)] = ((float32*)A_2[((i.outer*2) + i.inner)] + (float32*)B_2[((i.outer*2) + i.inner)])

这个schedule变换没有带来任何好处，只是为了说明Tensor Expression应该怎么用。就可以调用build生成目标代码了，可以设置target和target_host，参考代码如下。

tgt_host = "llvm"

# Change it to respective GPU if gpu is enabled Ex: cuda, opencl, rocm

tgt = "llvm" # cuda llvm

n = 10

fadd = tvm.build(s, [A, B, C], tgt, target_host=tgt_host, name="myadd")

ctx = tvm.context(tgt,0)

a = tvm.nd.array(np.random.uniform(size=n).astype(A.dtype), ctx)

b = tvm.nd.array(np.random.uniform(size=n).astype(B.dtype), ctx)

c = tvm.nd.array(np.zeros(n,dtype=C.dtype), ctx)

fadd(a,b,c) # run

# test

tvm.testing.assert_allclose(c.asnumpy(),a.asnumpy() + b.asnumpy())

print(fadd.get_source())

接下来重点梳理下调用tvm.build后代码生成的流程。

tvm.build

调用tvm.build后，先跳转到tvm/python/tvm/driver/build_module.py，其中的build函数主要做两个步骤：

lower高层次代码
后端代码生成

build函数的输入类型可以是

Schedule
LoweredFunc
[LoweredFunc]
{target: [LoweredFunc]}

如果输入是schedule.Schedule，调用文件中lower函数进行Schedule优化。

def build(inputs,args=None,target=None,target_host=None,name="default_function",binds=None):

    if isinstance(inputs, schedule.Schedule):

        if args is None:

            raise ValueError("args must be given for build from schedule")

        input_mod = lower(inputs, args,name=name,binds=binds)

    // skip some code.....

最终所有的输入，都整理成如下形式：

target_input_mod = {'target': [LoweredFunc]}

lower高层次代码

lower函数类似relay.build流程中的Optimize函数，但lower函数执行的是operator-level的优化，主要针对循环变换。

def lower(sch,args,name="main",binds=None,simple_mode=False):

    # config setup

    pass_ctx = PassContext.current()

    instrument_bound_checkers = bool(pass_ctx.config.get(

        "tir.instrument_bound_checkers", False))

    disable_vectorize = bool(pass_ctx.config.get(

        "tir.disable_vectorize", False))

    add_lower_pass = pass_ctx.config.get("tir.add_lower_pass", [])

    lower_phase0 = [x[1] for x in add_lower_pass if x[0] == 0]

    lower_phase1 = [x[1] for x in add_lower_pass if x[0] == 1]

    lower_phase2 = [x[1] for x in add_lower_pass if x[0] == 2]

    lower_phase3 = [x[1] for x in add_lower_pass if x[0] > 2]

    # Phase 0

    if isinstance(sch, schedule.Schedule):

        mod = form_irmodule(sch, args, name, binds)

    else:

        mod = sch

    pass_list = lower_phase0

    # Phase 1

    pass_list += [

        tvm.tir.transform.InjectPrefetch(),

        tvm.tir.transform.StorageFlatten(64, instrument_bound_checkers),

        tvm.tir.transform.BF16Legalize(),

        tvm.tir.transform.NarrowDataType(32),

        tvm.tir.transform.Simplify(),

    pass_list += lower_phase1

    # Phase 2

    if not simple_mode:

        pass_list += [(tvm.tir.transform.LoopPartition())]

    pass_list += [

        tvm.tir.transform.VectorizeLoop(not disable_vectorize),

        tvm.tir.transform.InjectVirtualThread(),

        tvm.tir.transform.InjectDoubleBuffer(),

        tvm.tir.transform.StorageRewrite(),

        tvm.tir.transform.UnrollLoop()

    pass_list += lower_phase2

    # Phase 3

    pass_list += [

        tvm.tir.transform.Simplify(),

        tvm.tir.transform.RemoveNoOp(),

    pass_list += [tvm.tir.transform.RewriteUnsafeSelect()]

    pass_list += [tvm.tir.transform.HoistIfThenElse()]

    pass_list += lower_phase3

    # Instrument BoundCheckers

    if instrument_bound_checkers:

        pass_list += [tvm.tir.transform.InstrumentBoundCheckers()]

    optimize = tvm.transform.Sequential(pass_list)

    mod = optimize(mod)

    return mod

lower函数后，对target device和target host分别生成代码，调用的代码如下所示。

def build(inputs,args=None,target=None,target_host=None,name="default_function",binds=None):

    # skip some code.....

    device_modules = []

    for tar, input_mod in target_input_mod.items():

       # build for device module

        mod_host, mdev = _build_for_device(input_mod, tar, target_host)

        mod_host_all.update(mod_host)

        device_modules.append(mdev)

    # Generate a unified host module.

    rt_mod_host = codegen.build_module(mod_host_all, target_host)

    # Import all modules.

    for mdev in device_modules:

        if mdev:

            rt_mod_host.import_module(mdev)

    return rt_mod_host

后端代码生成

调用codegen.build_module，跳转至tvm/python/tvm/target/codegen.py文件，通过FFI对C++函数Build进行调用，命名空间是"target"。Build函数的C++实现在tvm/src/target/http://codegen.cc文件，后续流程就与relay.build一致了，根据不同的硬件平台生成代码。

runtime::Module Build(IRModule mod, Target target) {

  if (transform::PassContext::Current()

          ->GetConfig<Bool>("tir.disable_assert", Bool(false))

          .value()) {

    mod = tir::transform::SkipAssert()(mod);

  std::string build_f_name;

  if (target->kind->name == "micro_dev") {

    build_f_name = "target.build.c";

  } else {

    build_f_name = "target.build." + target->kind->name;

  // the build function.

  const PackedFunc* bf = runtime::Registry::Get(build_f_name);

  CHECK(bf != nullptr) << build_f_name << " is not enabled";

  return (*bf)(mod, target);

TVM_REGISTER_GLOBAL("target.Build").set_body_typed(Build);

参考链接：

https://www.cnblogs.com/jourluohua/p/10191269.html

https://www.h5w3.com/128623.html

https://zhuanlan.zhihu.com/p/258432371

References

TVM Codebase Walkthrough by Example, https://docs.tvm.ai/dev/codebase_walkthrough.html
TVM图编译器Relay简单探究 – 郑思泽的文章 – 知乎, https://zhuanlan.zhihu.com/p/91283238
谢睿峰, TVM/VTA代码生成流程, https://krantz-xrf.github.io/2019/10/24/tvm-workflow.html
https://discuss.tvm.ai/t/relationship-between-tvm-build-and-relay-build/4166

posted @ 2021-11-12 06:22 吴建明wujianming 阅读(361) 评论(0) 收藏举报

刷新页面返回顶部

吴建明

微信视频号：sph0RgSyDYV47z6 快手号：4874645212 抖音号：dy0so323fq2w 小红书号：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087

TVM自定义修改代码示例

1. 补全相应的python接口

2. 找到python和C交互的接口

3. 正确维护中间代码的IR pass变换中新设备引入的特性

4. 代码生成对新设备和新特性的支持

5. 添加编译选项支持

二．TVM代码生成

relay.build

优化

计算图生成

后端代码生成

tvm.build

代码变换

代码生成

三．TVM代码生成分析

简单例子

tvm.build

lower高层次代码

后端代码生成

References

公告