上一页 1 ··· 270 271 272 273 274 275 276 277 278 ··· 367 下一页
摘要: 2D池化IPoolingLayer IPooling层在通道内实现池化。支持的池类型为最大, 平均 和 最大平均混合。 层描述:二维池化 使用张量上的2D滤波器计算池化a tensor A, of dimensions a, to produce a tensor B, of dimensions 阅读全文
posted @ 2020-12-18 13:56 吴建明wujianming 阅读(140) 评论(0) 推荐(0)
摘要: TensorRT 7.2.1开发初步 TensorRT 7.2.1开发人员指南演示了如何使用C ++和Python API来实现最常见的深度学习层。它显示了如何采用深度学习框架构建现有模型,并使用该模型通过提供的解析器构建TensorRT引擎。开发人员指南还提供了针对常见用户任务的分步说明,例如创建 阅读全文
posted @ 2020-12-18 09:07 吴建明wujianming 阅读(328) 评论(0) 推荐(0)
摘要: Turing渲染着色器网格技术分析 图灵体系结构通过使用 网格着色器 引入了一种新的可编程几何着色管道。新的着色器将计算编程模型引入到图形管道中,因为协同使用线程在芯片上直接生成紧凑网格( meshlets ),供光栅化器使用。处理高几何复杂度的应用程序和游戏得益于两阶段方法的灵活性,该方法允许有效 阅读全文
posted @ 2020-12-17 08:11 吴建明wujianming 阅读(388) 评论(0) 推荐(0)
摘要: NVIDIA FFmpeg 转码技术分析 所有从 Kepler 一代开始的 NVIDIA GPUs 都支持完全加速的硬件视频编码,而从费米一代开始的所有 GPUs 都支持完全加速的硬件视频解码。截至 2019 年 7 月,Kepler、Maxwell、Pascal、Volta 和 Turing 一代 阅读全文
posted @ 2020-12-17 07:23 吴建明wujianming 阅读(894) 评论(0) 推荐(0)
摘要: 异构计算是指高效地使用系统中的所有处理器,包括 CPU 和 GPU 。为此,应用程序必须在多个处理器上并发执行函数。 CUDA 应用程序通过在 streams 中执行异步命令来管理并发性,这些命令是按顺序执行的。不同的流可以并发地执行它们的命令,也可以彼此无序地执行它们的命令。 在不指定流的情况下执 阅读全文
posted @ 2020-12-17 06:55 吴建明wujianming 阅读(486) 评论(0) 推荐(0)
摘要: CUDA统一内存分析 PascalMIG 如 NVIDIA Titan X 和 NVIDIA Tesla P100 是第一个包含页 GPUs 定额引擎的 GPUs ,它是统一内存页错误处理和 MIG 比率的硬件支持。提供了一个很好的机会来学习更多的统一内存。 快 GPU ,快内存…对吗? 正确的! 阅读全文
posted @ 2020-12-16 07:18 吴建明wujianming 阅读(1126) 评论(0) 推荐(0)
摘要: Tesla T4视频编码性能分析 从开普勒开始的所有 NVIDIA GPUs 都支持完全加速的硬件视频编码; GPUs 支持完全加速的硬件视频解码。最近发布的图灵硬件提供了张量核心和更好的机器学习性能,但新的 GPU 还加入了新的多媒体功能,如改进的 NVENC 单元,以在视频编解码器中提供更好的压 阅读全文
posted @ 2020-12-16 06:40 吴建明wujianming 阅读(2122) 评论(0) 推荐(0)
摘要: 自主数据类型:在TVM中启用自定义数据类型探索 介绍 在设计加速器时,一个重要的决定是如何在硬件中近似地表示实数。这个问题有一个长期的行业标准解决方案:IEEE 754浮点标准.1。然而,当试图通过构建高度专业化的设计来最大限度地利用硬件时,使用通用IEEE 754浮点有意义吗?如果知道工作负载的数 阅读全文
posted @ 2020-12-15 15:39 吴建明wujianming 阅读(169) 评论(0) 推荐(0)
摘要: TinyML-TVM是如何驯服Tiny的(下) Lazy Execution实际上,随着通信开销开始占主导地位,一旦用户请求,就执行算子的开销变得非常昂贵。可以通过延迟评估直到用户需要调用的结果来提高系统的吞吐量。 从实现的角度来看,现在需要在主机端积累函数调用元数据,然后再将其刷新到设备,而不是急 阅读全文
posted @ 2020-12-15 14:59 吴建明wujianming 阅读(141) 评论(0) 推荐(0)
摘要: TinyML-TVM是如何驯服Tiny的(上) 低成本、人工智能驱动的消费类设备的激增,导致了ML研究人员和从业者对“裸智能”(低功耗,通常没有操作系统)设备的广泛兴趣。虽然专家已经可以在一些裸机设备上运行某些模型,但是为不同设备集优化模型是一个挑战,通常需要手动优化特定于设备的库。对于那些没有Li 阅读全文
posted @ 2020-12-15 14:53 吴建明wujianming 阅读(284) 评论(0) 推荐(0)
上一页 1 ··· 270 271 272 273 274 275 276 277 278 ··· 367 下一页