苹果妖

2016年9月21日

摘要： MXNET Windows 编译安装（Python）本文只记录Mxnet在windows下的编译安装，更多环境配置请移步官方文档：http://mxnet.readthedocs.io/en/latest/how_to/build.html 编译目标： libmxnet.dll 必要条件：支持C 阅读全文

posted @ 2016-09-21 21:47 苹果妖阅读(3133) 评论(0) 推荐(0)

2016年9月20日

CUDA ---- Stream and Event

摘要： Stream 一般来说，cuda c并行性表现在下面两个层面上： Kernel level Grid level 到目前为止，我们讨论的一直是kernel level的，也就是一个kernel或者一个task由许多thread并行的执行在GPU上。Stream的概念是相对于后者来说的，Grid le 阅读全文

posted @ 2016-09-20 23:38 苹果妖阅读(32514) 评论(3) 推荐(5)

2015年8月6日

CUDA ---- Constant Memory

摘要： CONSTANT MEMORY constant Memory对于device来说只读但是对于host是可读可写。constant Memory和global Memory一样都位于DRAM，并且有一个独立的on-chip cache，比直接从constant Memory读取要快得多。每个SM上c 阅读全文

posted @ 2015-08-06 00:25 苹果妖阅读(10556) 评论(0) 推荐(0)

2015年7月7日

MachineLearning Exercise 7 ： K-means Clustering and Principle Component Analysis

摘要： findClosestCentroids.mm = size(X,1);for i=1:m [value index] = min(sum((repmat(X(i,:),K,1)-centroids).^2,2)); idx(i) = index;endcomputeCentroids.... 阅读全文

posted @ 2015-07-07 00:12 苹果妖阅读(566) 评论(0) 推荐(0)

2015年6月28日

CUDA ---- Shared Memory

摘要： CUDA SHARED MEMORYshared memory在之前的博文有些介绍，这部分会专门讲解其内容。在global Memory部分，数据对齐和连续是很重要的话题，当使用L1的时候，对齐问题可以忽略，但是非连续的获取内存依然会降低性能。依赖于算法本质，某些情况下，非连续访问是不可避免的。使用... 阅读全文

posted @ 2015-06-28 14:35 苹果妖阅读(39259) 评论(7) 推荐(3)

2015年6月22日

UFLDL学习笔记 ---- 主成分分析与白化

摘要：主成分分析（PCA）是用来提升无监督特征学习速度的数据降维算法。看过下文大致可以知道，PCA本质是对角化协方差矩阵，目的是让维度之间的相关性最小（降噪），保留下来的维度能量最大（去冗余），PCA在图像数据的降维上很实用，因为图像数据相邻元素的相关性是很高的。为了方便解释，我们以二维数据降一维为例（实... 阅读全文

posted @ 2015-06-22 15:45 苹果妖阅读(2788) 评论(0) 推荐(0)

2015年6月21日

CUDA ---- CUDA库简介

摘要： CUDA Libraries简介上图是CUDA 库的位置，本文简要介绍cuSPARSE、cuBLAS、cuFFT和cuRAND，之后会介绍OpenACC。cuSPARSE线性代数库，主要针对稀疏矩阵之类的。cuBLAS是CUDA标准的线代库，不过没有专门针对稀疏矩阵的操作。cuFFT傅里叶变换cuR... 阅读全文

posted @ 2015-06-21 02:47 苹果妖阅读(10117) 评论(5) 推荐(1)

2015年6月13日

CUDA ---- Memory Access

摘要： Memory Access Patterns大部分device一开始从global Memory获取数据，而且，大部分GPU应用表现会被带宽限制。因此最大化应用对global Memory带宽的使用时获取高性能的第一步。也就是说，global Memory的使用就没调节好，其它的优化方案也获取不到什... 阅读全文

posted @ 2015-06-13 15:21 苹果妖阅读(7727) 评论(3) 推荐(4)

MachineLearning Exercise 4 ：Neural Networks Learning

摘要： nnCostFunction消耗公式:a1 = [ones(m,1) X];z2 = a1*Theta1';pre = sigmoid(a1*Theta1');a2 = [ones(m,1) pre];z3 = a2*Theta2';a3 = sigmoid(z3);y_vec = zeros(m,... 阅读全文

posted @ 2015-06-13 01:24 苹果妖阅读(1403) 评论(0) 推荐(0)

2015年6月11日

MachineLearning Exercise 5 ：Regularized Linear Regression and Bias vs Variance

该文被密码保护。阅读全文

posted @ 2015-06-11 23:56 苹果妖阅读(442) 评论(0) 推荐(0)

Anything that can go wrong will go wrong !

公告