吴建明wujianming

2020年12月9日

摘要： Relay张量集成 Introduction NVIDIA TensorRT是一个用于优化深度学习推理的库。这种集成将尽可能多地减轻从中继到TensorRT的算子，在NVIDIA GPU上提供性能提升，而无需调整计划。本文将演示如何安装TensorRT并在启用TensorRT BYOC和运行时的情阅读全文

posted @ 2020-12-09 08:50 吴建明wujianming 阅读(192) 评论(0) 推荐(0)

2020年12月8日

TVM 架构设计

摘要： TVM 架构设计本文面向希望了解TVM体系结构和/或，积极参与项目开发的开发人员。主要内容如下：示例编译流程，概述了TVM将模型的高级概念，转换为可部署模块的步骤。逻辑架构组件部分，描述逻辑组件。针对每个逻辑组件，按组件的名称进行组织。可以随时查看，开发人员如何指导有用的开发技巧。提供了阅读全文

posted @ 2020-12-08 09:04 吴建明wujianming 阅读(1632) 评论(0) 推荐(0)

2020年12月7日

NVIDIA Turing Architecture架构设计（下）

摘要： NVIDIA Turing Architecture架构设计（下） GDDR6 内存子系统随着显示分辨率不断提高，着色器功能和渲染技术变得更加复杂，内存带宽和大小在 GPU 性能中扮演着更大的角色。为了保持最高的帧速率和计算速度， GPU 不仅需要更多的内存带宽，还需要一个大的内存池来提供持续的性阅读全文

posted @ 2020-12-07 09:47 吴建明wujianming 阅读(816) 评论(0) 推荐(0)

NVIDIA Turing Architecture架构设计（上）

摘要： NVIDIA Turing Architecture架构设计（上）在游戏市场持续增长和对更好的 3D 图形的永不满足的需求的推动下， NVIDIA ®已经将 GPU 发展成为许多计算密集型应用的世界领先的并行处理引擎。除了渲染高度逼真和身临其境的 3D 游戏外， NVIDIA GPUs 还可以加速阅读全文

posted @ 2020-12-07 09:10 吴建明wujianming 阅读(1024) 评论(0) 推荐(0)

MLPerf Inference 0.7应用

摘要： MLPerf Inference 0.7应用三个趋势继续推动着人工智能推理市场的训练和推理：不断增长的数据集，日益复杂和多样化的网络，以及实时人工智能服务。 MLPerf 推断 0 . 7 是行业标准 AI 基准测试的最新版本，它解决了这三个趋势，为开发人员和组织提供了有用的数据，以便为数据中心和阅读全文

posted @ 2020-12-07 08:37 吴建明wujianming 阅读(465) 评论(0) 推荐(0)

机器人应用程序设计

摘要：机器人应用程序设计 Robot 操作系统（ ROS ）提供了许多软件库和工具来帮助构建机器人应用程序，包括框架、算法、传感器和机器人平台。它在世界各地的机器人专家和研究人员中非常受欢迎。来自生态系统的软件包和库的不断涌入使得机器人项目的启动变得很容易。图 1. 使用 ROS 桥接器连接 ISAAC 阅读全文

posted @ 2020-12-07 08:21 吴建明wujianming 阅读(323) 评论(0) 推荐(0)

2020年12月6日

Linux 2 的 Windows 子系统上发布 CUDA

摘要： Linux 2 的 Windows 子系统上发布 CUDA 为响应大众需求，微软宣布在 2020 年 5 月的建造大会上推出了建造（ WSL 2 ） – GPU 加速功能。这一特性为许多计算应用程序、专业工具和工作负载打开了大门，目前这些应用程序、专业工具和工作负载只能在 Linux 上阅读全文

posted @ 2020-12-06 09:30 吴建明wujianming 阅读(282) 评论(0) 推荐(0)

在 CUDA C/C++ kernel中使用内存

摘要：在 CUDA C/C++ kernel中使用内存如何在主机和设备之间高效地移动数据。本文将讨论如何有效地从内核中访问设备存储器，特别是全局内存。在 CUDA 设备上有几种内存，每种内存的作用域、生存期和缓存行为都不同。到目前为止，已经使用了驻留在设备 DRAM 中的全局内存，用于主机和设阅读全文

posted @ 2020-12-06 08:54 吴建明wujianming 阅读(282) 评论(0) 推荐(0)

CUDA 内存统一分析

摘要： CUDA 内存统一分析关于CUDA 编程的基本知识，如何编写一个简单的程序，在内存中分配两个可供 GPU 访问的数字数组，然后将它们加在 GPU 上。本文介绍内存统一，这使得分配和访问系统中任何处理器上运行的代码都可以使用的数据变得非常容易， CPU 或 GPU 。图 1 .内存统一是可从系统阅读全文

posted @ 2020-12-06 08:22 吴建明wujianming 阅读(1249) 评论(0) 推荐(0)

H.264 Video Codec速度和质量

摘要： H.264 Video Codec速度和质量从Kepler开始的所有 NVIDIA GPUs 都支持完全加速的硬件视频编码； GPUs 从费米开始支持完全加速的硬件视频解码。最近发布的图灵硬件提供了张量核心和更好的机器学习性能，但新的 GPU 还加入了新的多媒体功能，如改进的 NVENC 单元，以阅读全文

posted @ 2020-12-06 07:35 吴建明wujianming 阅读(773) 评论(0) 推荐(0)

吴建明

微信视频号：sph0RgSyDYV47z6 快手号：4874645212 抖音号：dy0so323fq2w 小红书号：95619019828 B站1：UID:3546863642871878 B站2：UID: 3546955410049087 知乎视频：https://www.zhihu.com/people/wujianming_110117/zvideos 知乎：https://www.zhihu.com/people/wujianming_110117

公告