会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
吴建明
微信视频号:sph0RgSyDYV47z6 快手号:4874645212 抖音号:dy0so323fq2w 小红书号:95619019828 B站1:UID:3546863642871878 B站2:UID: 3546955410049087
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
232
233
234
235
236
237
238
239
240
···
367
下一页
2021年3月12日
TVM自动调度器
摘要: TVM自动调度器 随着模型大小,算子多样性和硬件异构性的不断增长,优化深度神经网络的执行速度非常困难。从计算的角度来看,深度神经网络只是张量计算的一层,又一层。这些张量计算(例如matmul和conv2d),可以通过数学表达式轻松描述。在现代硬件上,提供高性能的实现,可能会非常具有挑战性。必须应用各
阅读全文
posted @ 2021-03-12 06:15 吴建明wujianming
阅读(868)
评论(0)
推荐(0)
2021年3月11日
将代码生成器带入TVM
摘要: 将代码生成器带入TVM 为了使数据科学家不必担心开发新模型时的性能,硬件后端提供程序(例如Intel,NVIDIA,ARM等)可以提供诸如cuBLAS或cuDNN之类的内核库以及许多常用的深度学习内核,或者提供诸如此类的框架。例如带有图形引擎的DNNL或TensorRT,使用户以某种方式描述其模型以
阅读全文
posted @ 2021-03-11 06:18 吴建明wujianming
阅读(414)
评论(0)
推荐(0)
2021年3月10日
CUDA上的量化深度学习模型的自动化优化
摘要: CUDA上的量化深度学习模型的自动化优化 深度学习已成功应用于各种任务。在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要。网络量化是加速深度学习模型的有效方法。在量化模型中,数据和模型参数都用诸如int8和的低精度数据类型表示float16。降低的数据带宽减少了推理时间和存储器/存储需
阅读全文
posted @ 2021-03-10 06:04 吴建明wujianming
阅读(507)
评论(0)
推荐(0)
2021年3月9日
硬件平台上深度学习自动内核优化
摘要: 硬件平台上深度学习自动内核优化 对于AI开发人员来说,在各种硬件平台上优化深度神经网络的性能仍然是一个难题。在系统支持方面,在这里面临着许多问题:将训练有素的模型从多个前端(例如Tensorflow,ONNX,MXNet)部署到多个硬件平台(例如CPU,GPU,加速器)。此问题最关键的性能部分,为不
阅读全文
posted @ 2021-03-09 06:18 吴建明wujianming
阅读(314)
评论(0)
推荐(0)
DLPack构建跨框架的深度学习编译器
摘要: DLPack构建跨框架的深度学习编译器 Tensorflow,PyTorch和ApacheMxNet等深度学习框架提供了一个功能强大的工具包,可用于快速进行原型设计和部署深度学习模型。易用性通常是以碎片为代价的:孤立地使用每个框架是很容易的。垂直集成已使常见用例的开发流程简化了,但是冒险走过的路可能
阅读全文
posted @ 2021-03-09 05:51 吴建明wujianming
阅读(265)
评论(0)
推荐(0)
2021年3月8日
TensorFlow+TVM优化NMT神经机器翻译
摘要: TensorFlow+TVM优化NMT神经机器翻译 背景 神经机器翻译(NMT)是一种自动化的端到端方法,具有克服传统基于短语的翻译系统中的弱点的潜力。本文为全球电子商务部署NMT服务。 目前,将Transformer用作NMT系统的主要骨干,对基于经典RNN / LSTM模型的同等(甚至更高)精度
阅读全文
posted @ 2021-03-08 06:25 吴建明wujianming
阅读(316)
评论(0)
推荐(0)
2021年3月7日
TVM在ARM GPU上优化移动深度学习
摘要: TVM在ARM GPU上优化移动深度学习 随着深度学习的巨大成功,将深度神经网络部署到移动设备的需求正在迅速增长。与在台式机平台上所做的类似,在移动设备中使用GPU可以提高推理速度和能源效率。但是,大多数现有的深度学习框架都不能很好地支持移动GPU。困难在于移动GPU架构和台式机GPU架构之间的差异
阅读全文
posted @ 2021-03-07 08:25 吴建明wujianming
阅读(526)
评论(0)
推荐(0)
TVM将深度学习模型编译为WebGL
摘要: 使用TVM将深度学习模型编译为WebGL TVM带有全新的OpenGL / WebGL后端! OpenGL / WebGL后端 TVM已经瞄准了涵盖各种平台的大量后端:CPU,GPU,移动设备等。这次,添加了另一个后端:OpenGL / WebGL。 OpenGL / WebGL使能够在未安装CUD
阅读全文
posted @ 2021-03-07 07:05 吴建明wujianming
阅读(208)
评论(0)
推荐(0)
2021年3月6日
NNVM AI框架编译器
摘要: NNVM AI框架编译器 深度学习已变得无处不在且不可或缺。看到对在多种平台(例如手机,GPU,IoT设备和专用加速器)上部署深度学习工作负载的需求不断增长。TVM堆栈弥合深度学习框架与面向性能或效率的硬件后端之间的鸿沟。TVM堆栈使为深度学习框架轻松构建端到端编译变得容易。拥有适用于所有框架的统一
阅读全文
posted @ 2021-03-06 06:27 吴建明wujianming
阅读(598)
评论(0)
推荐(0)
Deep Learning部署TVM Golang运行时Runtime
摘要: Deep Learning部署TVM Golang运行时Runtime 介绍 TVM是一个开放式深度学习编译器堆栈,用于编译从不同框架到CPU,GPU或专用加速器的各种深度学习模型。TVM支持来自Tensorflow,Onnx,Keras,Mxnet,Darknet,CoreML和Caffe2等各种
阅读全文
posted @ 2021-03-06 06:02 吴建明wujianming
阅读(268)
评论(0)
推荐(0)
上一页
1
···
232
233
234
235
236
237
238
239
240
···
367
下一页
公告