上一页 1 ··· 232 233 234 235 236 237 238 239 240 ··· 367 下一页
摘要: TVM自动调度器 随着模型大小,算子多样性和硬件异构性的不断增长,优化深度神经网络的执行速度非常困难。从计算的角度来看,深度神经网络只是张量计算的一层,又一层。这些张量计算(例如matmul和conv2d),可以通过数学表达式轻松描述。在现代硬件上,提供高性能的实现,可能会非常具有挑战性。必须应用各 阅读全文
posted @ 2021-03-12 06:15 吴建明wujianming 阅读(868) 评论(0) 推荐(0)
摘要: 将代码生成器带入TVM 为了使数据科学家不必担心开发新模型时的性能,硬件后端提供程序(例如Intel,NVIDIA,ARM等)可以提供诸如cuBLAS或cuDNN之类的内核库以及许多常用的深度学习内核,或者提供诸如此类的框架。例如带有图形引擎的DNNL或TensorRT,使用户以某种方式描述其模型以 阅读全文
posted @ 2021-03-11 06:18 吴建明wujianming 阅读(414) 评论(0) 推荐(0)
摘要: CUDA上的量化深度学习模型的自动化优化 深度学习已成功应用于各种任务。在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要。网络量化是加速深度学习模型的有效方法。在量化模型中,数据和模型参数都用诸如int8和的低精度数据类型表示float16。降低的数据带宽减少了推理时间和存储器/存储需 阅读全文
posted @ 2021-03-10 06:04 吴建明wujianming 阅读(507) 评论(0) 推荐(0)
摘要: 硬件平台上深度学习自动内核优化 对于AI开发人员来说,在各种硬件平台上优化深度神经网络的性能仍然是一个难题。在系统支持方面,在这里面临着许多问题:将训练有素的模型从多个前端(例如Tensorflow,ONNX,MXNet)部署到多个硬件平台(例如CPU,GPU,加速器)。此问题最关键的性能部分,为不 阅读全文
posted @ 2021-03-09 06:18 吴建明wujianming 阅读(314) 评论(0) 推荐(0)
摘要: DLPack构建跨框架的深度学习编译器 Tensorflow,PyTorch和ApacheMxNet等深度学习框架提供了一个功能强大的工具包,可用于快速进行原型设计和部署深度学习模型。易用性通常是以碎片为代价的:孤立地使用每个框架是很容易的。垂直集成已使常见用例的开发流程简化了,但是冒险走过的路可能 阅读全文
posted @ 2021-03-09 05:51 吴建明wujianming 阅读(265) 评论(0) 推荐(0)
摘要: TensorFlow+TVM优化NMT神经机器翻译 背景 神经机器翻译(NMT)是一种自动化的端到端方法,具有克服传统基于短语的翻译系统中的弱点的潜力。本文为全球电子商务部署NMT服务。 目前,将Transformer用作NMT系统的主要骨干,对基于经典RNN / LSTM模型的同等(甚至更高)精度 阅读全文
posted @ 2021-03-08 06:25 吴建明wujianming 阅读(316) 评论(0) 推荐(0)
摘要: TVM在ARM GPU上优化移动深度学习 随着深度学习的巨大成功,将深度神经网络部署到移动设备的需求正在迅速增长。与在台式机平台上所做的类似,在移动设备中使用GPU可以提高推理速度和能源效率。但是,大多数现有的深度学习框架都不能很好地支持移动GPU。困难在于移动GPU架构和台式机GPU架构之间的差异 阅读全文
posted @ 2021-03-07 08:25 吴建明wujianming 阅读(526) 评论(0) 推荐(0)
摘要: 使用TVM将深度学习模型编译为WebGL TVM带有全新的OpenGL / WebGL后端! OpenGL / WebGL后端 TVM已经瞄准了涵盖各种平台的大量后端:CPU,GPU,移动设备等。这次,添加了另一个后端:OpenGL / WebGL。 OpenGL / WebGL使能够在未安装CUD 阅读全文
posted @ 2021-03-07 07:05 吴建明wujianming 阅读(208) 评论(0) 推荐(0)
摘要: NNVM AI框架编译器 深度学习已变得无处不在且不可或缺。看到对在多种平台(例如手机,GPU,IoT设备和专用加速器)上部署深度学习工作负载的需求不断增长。TVM堆栈弥合深度学习框架与面向性能或效率的硬件后端之间的鸿沟。TVM堆栈使为深度学习框架轻松构建端到端编译变得容易。拥有适用于所有框架的统一 阅读全文
posted @ 2021-03-06 06:27 吴建明wujianming 阅读(598) 评论(0) 推荐(0)
摘要: Deep Learning部署TVM Golang运行时Runtime 介绍 TVM是一个开放式深度学习编译器堆栈,用于编译从不同框架到CPU,GPU或专用加速器的各种深度学习模型。TVM支持来自Tensorflow,Onnx,Keras,Mxnet,Darknet,CoreML和Caffe2等各种 阅读全文
posted @ 2021-03-06 06:02 吴建明wujianming 阅读(268) 评论(0) 推荐(0)
上一页 1 ··· 232 233 234 235 236 237 238 239 240 ··· 367 下一页