吴建明wujianming

2021年3月12日

摘要： TVM自动调度器随着模型大小，算子多样性和硬件异构性的不断增长，优化深度神经网络的执行速度非常困难。从计算的角度来看，深度神经网络只是张量计算的一层，又一层。这些张量计算（例如matmul和conv2d），可以通过数学表达式轻松描述。在现代硬件上，提供高性能的实现，可能会非常具有挑战性。必须应用各阅读全文

posted @ 2021-03-12 06:15 吴建明wujianming 阅读(868) 评论(0) 推荐(0)

2021年3月11日

将代码生成器带入TVM

摘要：将代码生成器带入TVM 为了使数据科学家不必担心开发新模型时的性能，硬件后端提供程序（例如Intel，NVIDIA，ARM等）可以提供诸如cuBLAS或cuDNN之类的内核库以及许多常用的深度学习内核，或者提供诸如此类的框架。例如带有图形引擎的DNNL或TensorRT，使用户以某种方式描述其模型以阅读全文

posted @ 2021-03-11 06:18 吴建明wujianming 阅读(414) 评论(0) 推荐(0)

2021年3月10日

CUDA上的量化深度学习模型的自动化优化

摘要： CUDA上的量化深度学习模型的自动化优化深度学习已成功应用于各种任务。在诸如自动驾驶汽车推理之类的实时场景中，模型的推理速度至关重要。网络量化是加速深度学习模型的有效方法。在量化模型中，数据和模型参数都用诸如int8和的低精度数据类型表示float16。降低的数据带宽减少了推理时间和存储器/存储需阅读全文

posted @ 2021-03-10 06:04 吴建明wujianming 阅读(507) 评论(0) 推荐(0)

2021年3月9日

硬件平台上深度学习自动内核优化

摘要：硬件平台上深度学习自动内核优化对于AI开发人员来说，在各种硬件平台上优化深度神经网络的性能仍然是一个难题。在系统支持方面，在这里面临着许多问题：将训练有素的模型从多个前端（例如Tensorflow，ONNX，MXNet）部署到多个硬件平台（例如CPU，GPU，加速器）。此问题最关键的性能部分，为不阅读全文

posted @ 2021-03-09 06:18 吴建明wujianming 阅读(314) 评论(0) 推荐(0)

DLPack构建跨框架的深度学习编译器

摘要： DLPack构建跨框架的深度学习编译器 Tensorflow，PyTorch和ApacheMxNet等深度学习框架提供了一个功能强大的工具包，可用于快速进行原型设计和部署深度学习模型。易用性通常是以碎片为代价的：孤立地使用每个框架是很容易的。垂直集成已使常见用例的开发流程简化了，但是冒险走过的路可能阅读全文

posted @ 2021-03-09 05:51 吴建明wujianming 阅读(265) 评论(0) 推荐(0)

2021年3月8日

TensorFlow+TVM优化NMT神经机器翻译

摘要： TensorFlow+TVM优化NMT神经机器翻译背景神经机器翻译（NMT）是一种自动化的端到端方法，具有克服传统基于短语的翻译系统中的弱点的潜力。本文为全球电子商务部署NMT服务。目前，将Transformer用作NMT系统的主要骨干，对基于经典RNN / LSTM模型的同等（甚至更高）精度阅读全文

posted @ 2021-03-08 06:25 吴建明wujianming 阅读(316) 评论(0) 推荐(0)

2021年3月7日

TVM在ARM GPU上优化移动深度学习

摘要： TVM在ARM GPU上优化移动深度学习随着深度学习的巨大成功，将深度神经网络部署到移动设备的需求正在迅速增长。与在台式机平台上所做的类似，在移动设备中使用GPU可以提高推理速度和能源效率。但是，大多数现有的深度学习框架都不能很好地支持移动GPU。困难在于移动GPU架构和台式机GPU架构之间的差异阅读全文

posted @ 2021-03-07 08:25 吴建明wujianming 阅读(526) 评论(0) 推荐(0)

TVM将深度学习模型编译为WebGL

摘要：使用TVM将深度学习模型编译为WebGL TVM带有全新的OpenGL / WebGL后端！ OpenGL / WebGL后端 TVM已经瞄准了涵盖各种平台的大量后端：CPU，GPU，移动设备等。这次，添加了另一个后端：OpenGL / WebGL。 OpenGL / WebGL使能够在未安装CUD 阅读全文

posted @ 2021-03-07 07:05 吴建明wujianming 阅读(208) 评论(0) 推荐(0)

2021年3月6日

NNVM AI框架编译器

摘要： NNVM AI框架编译器深度学习已变得无处不在且不可或缺。看到对在多种平台（例如手机，GPU，IoT设备和专用加速器）上部署深度学习工作负载的需求不断增长。TVM堆栈弥合深度学习框架与面向性能或效率的硬件后端之间的鸿沟。TVM堆栈使为深度学习框架轻松构建端到端编译变得容易。拥有适用于所有框架的统一阅读全文

posted @ 2021-03-06 06:27 吴建明wujianming 阅读(598) 评论(0) 推荐(0)

Deep Learning部署TVM Golang运行时Runtime

摘要： Deep Learning部署TVM Golang运行时Runtime 介绍 TVM是一个开放式深度学习编译器堆栈，用于编译从不同框架到CPU，GPU或专用加速器的各种深度学习模型。TVM支持来自Tensorflow，Onnx，Keras，Mxnet，Darknet，CoreML和Caffe2等各种阅读全文

posted @ 2021-03-06 06:02 吴建明wujianming 阅读(268) 评论(0) 推荐(0)

吴建明

微信视频号：sph0RgSyDYV47z6 快手号：4874645212 抖音号：dy0so323fq2w 小红书号：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087

公告