ex3多类问题和NN中的前向传播

​ 昨日去了趟无锡,前天下了暴雨,所以昨天给我的感觉天气很好,天蓝云白的,以后在这边学习估计也是一件很爽的事情,且昨日通知书业寄到学校了,附赠了一份研究生数学建模的传单,我搜了搜近几年的题目,感觉统计模块的题目很多,学了一段时间的机器学习现在感觉看懂还是有点小难,但是有几道可以直接看出思路。昨天回来后并未继续笔记的整理,转去翻了翻周志华的书,重新看后感觉很棒,这段时间再重新看一遍,下了本统计学习方法也要这几日学一下。

one-VS-all与神经网络练习ex3

​ 对于此练习,您将使用逻辑回归和神经网络来识别手写数字(从0到9)。 自动手写数字识别在当今广泛使用 - 从邮政信箱中识别邮政编码(邮政编码)到识别银行支票上的金额。 本练习将向您展示如何将这些方法用于此分类任务。

​ 已经给出的数据存放在"ex3data1.mat"中,包含了5000个手写笔迹的训练集,.mat文件可以直接读取:

% Load saved matrices from file
load('ex3data1.mat');
% The matrices X and y will now be in your Octave environment

​ 这5000个训练集中,每个案例都是20*20像素的灰度图像,每个像素由表示该位置的灰度强度的浮点数表示。 20×20像素的网格被展开为400维向量,这些训练样本中的每一个在我们的数据矩阵X中成为一行。这给我们一个5000×400矩阵X,其中每行都是训练样手写数字图像识别的训练集。

![vector of the data set](http://wx3.sinaimg.cn/mw690/7b8d2108gy1fgihl6y7nhj205c02sq2r.jpg)
​ 训练集的第二部分是包含训练集标签的5000维矢量y。 为了使事情更加兼容Octave / MATLAB索引,其中没有零索引,我们已经将数字零映射到值十。 因此,\ 0“数字被标记为\ 10”,而数字\ 1“至\ 9”按照自然顺序标记为\ 1“至\ 9”。

visualize the figure

​ “displaydata”函数用来显示随机从5000个训练集中挑选的任意100行数据(利用内嵌的randperm函数生成随机数,后挑选前100个),代码如下(直接提供为要求编写):

function [h, display_array] = displayData(X, example_width)
%DISPLAYDATA Display 2D data in a nice grid
%   [h, display_array] = DISPLAYDATA(X, example_width) displays 2D data
%   stored in X in a nice grid. It returns the figure handle h and the 
%   displayed array if requested.

% 如果参数example_width没有传入,自动生成
if ~exist('example_width', 'var') || isempty(example_width) 
	example_width = round(sqrt(size(X, 2)));
end

% 灰度处理
colormap(gray);

% 计算行、列
[m n] = size(X);
example_height = (n / example_width);

% 计算要显示的项目数
display_rows = floor(sqrt(m));%舍去小数部分
display_cols = ceil(m / display_rows);%补全小数部分

% 图像之间的填充
pad = 1;

% 以黑框显示填充边界
display_array = - ones(pad + display_rows * (example_height + pad), ...
                       pad + display_cols * (example_width + pad));

% 将每个图形复制到显示阵列上的一个临时patch中
curr_ex = 1;
for j = 1:display_rows
	for i = 1:display_cols
		if curr_ex > m, 
			break; 
		end
		% Copy the patch
		
		% Get the max value of the patch
		max_val = max(abs(X(curr_ex, :)));
		display_array(pad + (j - 1) * (example_height + pad) + (1:example_height), ...
		              pad + (i - 1) * (example_width + pad) + (1:example_width)) = ...
						reshape(X(curr_ex, :), example_height, example_width) / max_val;
		curr_ex = curr_ex + 1;
	end
	if curr_ex > m, 
		break; 
	end
end

% 显示图片
% imagesc(1,[0,1]);  colormap(gray);  imagesc 函数中的第二个参数确定灰度范围。灰度范围中的
% 第一个值(通常是0),对应于颜色映象表中的第一个值(颜色),第二个值(通常是1)则对应与颜色映
% 象表中的最后一个值(颜色)。灰度范围中间的值则线型对应与颜色映象表中剩余的值(颜色)
h = imagesc(display_array, [-1 1]);

% 坐标轴隐去
axis image off

drawnow;
end

​ 图像如下:

![2.jpg](http://wx2.sinaimg.cn/mw690/7b8d2108gy1fgihl7a3f3j208307u0tr.jpg)
### 矢量化逻辑回归

​ 这里使用多个一对多的逻辑回归模型来构建一个多类分类器。 由于有10个类,故需要训练10个独立的逻辑回归分类器。 为了使培训效率高,重要的是确保代码良好的矢量化。

​ 我们将从编写成本函数的向量化版本开始。 回顾前几节,在(非规则化)逻辑回归中成本函数是:

![3.jpg](http://wx2.sinaimg.cn/mw690/7b8d2108gy1fgihl7hukrj20bu01fa9z.jpg)
​ 我们首先计算$h_\theta(x^{(i)})$对于每一个训练集i,这里$h_\theta(x^{(i)})=g(\theta^Tx^{(i)})$同时$g(z)=\frac{1}{1+e^{-z}}$为S形函数。事实证明,我们可以通过使用矩阵乘法快速计算所有我们的examples。定义X与θ 为:
![4.jpg](http://wx4.sinaimg.cn/mw690/7b8d2108gy1fgihl85b6aj2095035746.jpg)
​ 通过计算矩阵Xθ ,有:
![5.jpg](http://wx3.sinaimg.cn/mw690/7b8d2108gy1fgihl8c0c6j209i02s3ye.jpg)
​ 在最后的等式中,我们利用如果a和b是向量,那么$a^Tb=b^Ta$的事实。这允许我们在一行代码中计算我们所有示例i的乘积$\theta^Tx^{(i)}$。

​ 函数lrCostFunction.m如下(不使用任何的loop即循环完成):

% Initialize some useful values
m = length(y); % number of training examples

% You need to return the following variables correctly 
J = 0;
J = ( -y'*log(sigmoid(X*theta))-(ones(m,1)-y)'*log(ones(m,1)-sigmoid(X*theta)) )/m;

​ 回忆一下,对于未正则的逻辑回归代价-cost梯度为:

![6.jpg](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgihl8mhx5j206x01pt8l.jpg)
​ 为了对数据集进行向量化操作,我们先为所有$\theta_j$明确写出所有偏导数,

7.jpg这里的:8.jpg

​ 注意这里的\(x^{(i)}\)是向量,而\((h_\theta(x^{(i)})-y^{(i)})\)是标量(单数)。为了理解推导的最后一步,令\(\beta_i=(h_\theta(x^{(i)}-y^{(i)})\)并观察:

![9.jpg](http://wx4.sinaimg.cn/mw690/7b8d2108gy1fgihn64eelj20an02vq2t.jpg)
​ 完成函数lrCostFunction.m
% Initialize some useful values
m = length(y); % number of training examples

% You need to return the following variables correctly 
J = 0;
grad = zeros(size(theta));

grad = X'*(sigmoid(X*theta)-y)/m + lambda/m*theta;

正则规则下的向量化逻辑递归

10.jpg

​ 注意,不应将偏差项\(\theta_0\)正则化。相应地,正则化逻辑回归的偏导数\(\theta_j\)的成本定义为:

11.jpg

​ 加入正则化后的lrCostFunction.m,完善后为:

% Initialize some useful values
m = length(y); % number of training examples

% You need to return the following variables correctly 
J = 0;
grad = zeros(size(theta));

J = ( -y'*log(sigmoid(X*theta))-(ones(m,1)-y)'*log(ones(m,1)-sigmoid(X*theta)) )/m;
tempJ = sum(theta.^2) - theta(1)^2;
tempJ = tempJ*lambda/(2*m);
J = J+tempJ;

grad = X'*(sigmoid(X*theta)-y)/m + lambda/m*theta;
grad(1) = grad(1) - lambda/m*theta(1);

grad = grad(:);

one-vs-all 分类器

​ 当你对第k类训练分类器时(k\(\in\){1,2,....K}),你将需要关于一个标记(label)y标明维度向量,其中\(y_j\in \{0,1\}\),表示第j个训练实例是否属于第k类(此时标1),或不属于此类(此时标2).

​ 此外,使用自带的fmincg函数进行训练(而不是fminunc)。 fmincg与fminunc类似,但对于处理大量参数而言更为有效。

​ oneVsAll.m文件如下:

% Some useful variables
m = size(X, 1);
n = size(X, 2);

% You need to return the following variables correctly 
all_theta = zeros(num_labels, n + 1);

% Add ones to the X data matrix
X = [ones(m, 1) X];

initial_theta = zeros(n + 1, 1);
options = optimset('GradObj', 'on', 'MaxIter', 50);
for c = 1:num_labels
    [theta] = fmincg (@(t)(lrCostFunction(t, X, (y == c), lambda)),initial_theta, options);
    all_theta(c,:) = theta(:)';
end

​ 在已经训练过一对多分类器后,可以使用它来预测对于给定图像中所包含的数字,对于每一个输入,可以使用经过训练的逻辑回归分类器来计算它属于每个类的“概率”,predictOneVsAll.m函数用于将所选择的逻辑回归分类器输出最高概率的类,并返回类标签(1,2...或K)作为输入实例的预测。

具体如下:

m = size(X, 1);
num_labels = size(all_theta, 1);

% You need to return the following variables correctly 
p = zeros(size(X, 1), 1);

% Add ones to the X data matrix
X = [ones(m, 1) X];

A = X*all_theta';
[~,p] = max(A,[],2);

神经网络NN练习

​ 之前几节的练习中,已经能够实现多类逻辑回归以从图片中识别手写数字,然而逻辑回归不能形成更复杂的假设,因为它只是一个线性分类器,而这部分的练习中将试图通过学习神经网络以识别与之前相同的训练集的手写数字,NN可以形成非线性假设的复杂模型,ex3中对NN的练习主要为前向反馈传播算法,使用权重进行预测,接下来的ex4练习会涉及到神经网络的反向传播算法的计算。

​ 我们的神经网络下图所示。它有3层{输入层,隐层和输出层。 回想一下,我们的输入层是数字图像的像素值,由于图像的尺寸为20×20,所以给出了400个输入层单位(不包括总是输出1即额外的偏置单位)。 如前所述,训练数据将被加载到变量X和y中。您已经获得了我们已经训练的一组网络参数(\(\Theta^{(1)},\Theta^{(2)}\))。 这些存储在ex3weights.mat中,并将由脚本ex3 nn.m加载到Theta1和Theta2中。参数的尺寸为第二层25个单位的神经网络的大小和10个输出单元(对应于10位数字类)。

![12.jpg](http://wx1.sinaimg.cn/mw690/7b8d2108gy1fgihn76b40j20b50aht9s.jpg)
​ 完成predict.m函数编写:
% Useful values
m = size(X, 1);
num_labels = size(Theta2, 1);

% You need to return the following variables correctly 
p = zeros(size(X, 1), 1);

X = [ones(m,1) X];

a2 = sigmoid(X*Theta1');
a2 = [ones(size(a2,1),1) a2];
a3 = sigmoid(a2*Theta2');

[~,p] = max(a3,[],2);

​ 由已知的参数Theta1和Theta2我们可以的到计算的精确度为:97.5%.

posted @ 2017-06-12 16:21  SrtFrmGNU  阅读(567)  评论(0编辑  收藏  举报