08 2019 档案

摘要:参考代码:https://github.com/tensorpack/tensorpack/blob/master/tensorpack/dataflow/parallel.py(目前最新版本已经更名为MultiProcessRunner,在最早的版本叫做MultiProcessPrefetchDa 阅读全文
posted @ 2019-08-31 20:34 灰太狼锅锅 阅读(1228) 评论(0) 推荐(0)
摘要:1.Layout Optimizer Tensorflow有几种图优化的方法,其中一种较为重要的是layout optimizer,核心思想是调整tensor的layout(NHWC to NCHW),原因在于在较早的cudnn版本中的API是不支持NHWC格式的输入的,目前cudnn7.0版本已经 阅读全文
posted @ 2019-08-31 19:52 灰太狼锅锅 阅读(1129) 评论(0) 推荐(0)
摘要:参考文献:https://developer.download.nvidia.cn/assets/cuda/files/reduction.pdf 文中对Scalar Reduction提出了6阶段的优化方法,其中比较关键的思想如下: 1.Avoid warp divergent 2.Sequent 阅读全文
posted @ 2019-08-14 21:11 灰太狼锅锅 阅读(438) 评论(0) 推荐(0)
摘要:一、Nccl AllReduce基本原理: allreduce是collective communication中的一种,其他种类的还有:Broadcast、Scatter、Gather、Reduce等 具体含义可以参考文档:https://images.nvidia.com/events/sc15 阅读全文
posted @ 2019-08-13 22:25 灰太狼锅锅 阅读(7014) 评论(0) 推荐(0)