摘要: MXNET Windows 编译安装(Python) 本文只记录Mxnet在windows下的编译安装,更多环境配置请移步官方文档:http://mxnet.readthedocs.io/en/latest/how_to/build.html 编译目标: libmxnet.dll 必要条件: 支持C 阅读全文
posted @ 2016-09-21 21:47 苹果妖 阅读(3009) 评论(0) 推荐(0) 编辑
摘要: Stream 一般来说,cuda c并行性表现在下面两个层面上: Kernel level Grid level 到目前为止,我们讨论的一直是kernel level的,也就是一个kernel或者一个task由许多thread并行的执行在GPU上。Stream的概念是相对于后者来说的,Grid le 阅读全文
posted @ 2016-09-20 23:38 苹果妖 阅读(22523) 评论(3) 推荐(4) 编辑
摘要: CONSTANT MEMORY constant Memory对于device来说只读但是对于host是可读可写。constant Memory和global Memory一样都位于DRAM,并且有一个独立的on-chip cache,比直接从constant Memory读取要快得多。每个SM上c 阅读全文
posted @ 2015-08-06 00:25 苹果妖 阅读(8243) 评论(0) 推荐(0) 编辑
摘要: findClosestCentroids.mm = size(X,1);for i=1:m [value index] = min(sum((repmat(X(i,:),K,1)-centroids).^2,2)); idx(i) = index;endcomputeCentroids.... 阅读全文
posted @ 2015-07-07 00:12 苹果妖 阅读(503) 评论(0) 推荐(0) 编辑
摘要: CUDA SHARED MEMORYshared memory在之前的博文有些介绍,这部分会专门讲解其内容。在global Memory部分,数据对齐和连续是很重要的话题,当使用L1的时候,对齐问题可以忽略,但是非连续的获取内存依然会降低性能。依赖于算法本质,某些情况下,非连续访问是不可避免的。使用... 阅读全文
posted @ 2015-06-28 14:35 苹果妖 阅读(28447) 评论(7) 推荐(2) 编辑
摘要: 主成分分析(PCA)是用来提升无监督特征学习速度的数据降维算法。看过下文大致可以知道,PCA本质是对角化协方差矩阵,目的是让维度之间的相关性最小(降噪),保留下来的维度能量最大(去冗余),PCA在图像数据的降维上很实用,因为图像数据相邻元素的相关性是很高的。为了方便解释,我们以二维数据降一维为例(实... 阅读全文
posted @ 2015-06-22 15:45 苹果妖 阅读(2424) 评论(0) 推荐(0) 编辑
摘要: CUDA Libraries简介上图是CUDA 库的位置,本文简要介绍cuSPARSE、cuBLAS、cuFFT和cuRAND,之后会介绍OpenACC。cuSPARSE线性代数库,主要针对稀疏矩阵之类的。cuBLAS是CUDA标准的线代库,不过没有专门针对稀疏矩阵的操作。cuFFT傅里叶变换cuR... 阅读全文
posted @ 2015-06-21 02:47 苹果妖 阅读(8472) 评论(5) 推荐(1) 编辑
摘要: Memory Access Patterns大部分device一开始从global Memory获取数据,而且,大部分GPU应用表现会被带宽限制。因此最大化应用对global Memory带宽的使用时获取高性能的第一步。也就是说,global Memory的使用就没调节好,其它的优化方案也获取不到什... 阅读全文
posted @ 2015-06-13 15:21 苹果妖 阅读(5680) 评论(3) 推荐(4) 编辑
摘要: nnCostFunction消耗公式:a1 = [ones(m,1) X];z2 = a1*Theta1';pre = sigmoid(a1*Theta1');a2 = [ones(m,1) pre];z3 = a2*Theta2';a3 = sigmoid(z3);y_vec = zeros(m,... 阅读全文
posted @ 2015-06-13 01:24 苹果妖 阅读(1329) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2015-06-11 23:56 苹果妖 阅读(442) 评论(0) 推荐(0) 编辑