摘要: CUDA上深度学习模型量化的自动化优化 深度学习已成功应用于各种任务。在诸如自动驾驶汽车推理之类的实时场景中,模型的推理速度至关重要。网络量化是加速深度学习模型的有效方法。在量化模型中,数据和模型参数都用诸如int8和float16低精度数据类型表示。降低的数据带宽减少了推理时间和存储器/存储要求, 阅读全文
posted @ 2021-05-26 05:57 吴建明wujianming 阅读(593) 评论(0) 推荐(0)
摘要: 将TVM集成到PyTorch 随着TVM不断展示出对深度学习执行效率的改进,很明显PyTorch将从直接利用编译器堆栈中受益。PyTorch的主要宗旨是提供无缝且强大的集成,而这不会妨碍用户。PyTorch现在具有基于TVM的官方后端torch_tvm。 用法很简单: import torch_tv 阅读全文
posted @ 2021-05-26 05:33 吴建明wujianming 阅读(294) 评论(0) 推荐(0)
摘要: 使用Apache TVM将机器学习编译为WASM和WebGPU TLDR 在Apache TVM深度学习编译器中引入了对WASM和WebGPU的支持。实验表明,在将模型部署到Web时,TVM的WebGPU后端可以接近本机 GPU的性能。 概述 计算是现代机器学习应用程序的支柱之一。GPU的引入加快了 阅读全文
posted @ 2021-05-26 05:15 吴建明wujianming 阅读(533) 评论(0) 推荐(1)