CS229 6.11 Neurons Networks implements of self-taught learning
摘要:在machine learning领域,更多的数据往往强于更优秀的算法,然而现实中的情况是一般人无法获取大量的已标注数据,这时候可以通过无监督方法获取大量的未标注数据,自学习( self-taught learning)与无监督特征学习(unsupervised feature learning)就
阅读全文
posted @
2018-11-27 00:21
Alan_Fire
阅读(235)
推荐(0)
CS229 6.10 Neurons Networks implements of softmax regression
摘要:softmax可以看做只有输入和输出的Neurons Networks,如下图: 其参数数量为k*(n+1) ,但在本实现中没有加入截距项,所以参数为k*n的矩阵。 对损失函数J(θ)的形式有: 算法步骤: 首先,加载数据集{x(1),x(2),x(3)...x(m)}该数据集为一个n*m的矩阵,然
阅读全文
posted @
2018-11-27 00:19
Alan_Fire
阅读(158)
推荐(0)
CS229 6.9 Neurons Networks softmax regression
摘要:SoftMax回归模型,是logistic回归在多分类问题的推广,即现在logistic回归数据中的标签y不止有0-1两个值,而是可以取k个值,softmax回归对诸如MNIST手写识别库等分类很有用,该问题有0-9 这10个数字,softmax是一种supervised learning方法。 在
阅读全文
posted @
2018-11-27 00:17
Alan_Fire
阅读(316)
推荐(0)
CS229 6.8 Neurons Networks implements of PCA ZCA and whitening
摘要:PCA 给定一组二维数据,每列十一组样本,共45个样本点 -6.7644914e-01 -6.3089308e-01 -4.8915202e-01 ... -4.4722050e-01 -7.4778067e-01 -3.9074344e-01 ... 可以表示为如下形式: 本例子中的的x(i)为2
阅读全文
posted @
2018-11-27 00:15
Alan_Fire
阅读(218)
推荐(0)
CS229 6.7 Neurons Networks whitening
摘要:PCA的过程结束后,还有一个与之相关的预处理步骤,白化(whitening) 对于输入数据之间有很强的相关性,所以用于训练数据是有很大冗余的,白化的作用就是降低输入数据的冗余,通过白化可以达到(1)降低特征之间的相关性(2)所有特征同方差,白化是需要与平滑与PCA结合的,下边来看如何结合。 对于训练
阅读全文
posted @
2018-11-27 00:11
Alan_Fire
阅读(146)
推荐(0)
CS229 6.6 Neurons Networks PCA主成分分析
摘要:主成分分析(PCA)是一种经典的降维算法,基于基变换,数据原来位于标准坐标基下,将其投影到前k个最大特征值对应的特征向量所组成的基上,使得数据在新基各个维度有最大的方差,且在新基的各个维度上数据是不相关的,PCA有几个关键的点: 1)归一化均值与方差,均值归一化后便于计算,方差归一化后便于对各个维度
阅读全文
posted @
2018-11-27 00:10
Alan_Fire
阅读(242)
推荐(0)
CS229 6.5 Neurons Networks Implements of Sparse Autoencoder
摘要:sparse autoencoder的一个实例练习,这个例子所要实现的内容大概如下:从给定的很多张自然图片中截取出大小为8*8的小patches图片共10000张,现在需要用sparse autoencoder的方法训练出一个隐含层网络所学习到的特征。该网络共有3层,输入层是64个节点,隐含层是25
阅读全文
posted @
2018-11-26 23:44
Alan_Fire
阅读(232)
推荐(0)
CS229 6.4 Neurons Networks Autoencoders and Sparsity
摘要:BP算法是适合监督学习的,因为要计算损失函数,计算时y值又是必不可少的,现在假设有一系列的无标签train data: ,其中 ,autoencoders是一种无监督学习算法,它使用了本身作为标签以此来使用BP算法进行训练,即,见如下示例: 自编码器尝试学习一个 的函数,它尝试逼近一个恒等函数,从而
阅读全文
posted @
2018-11-26 23:41
Alan_Fire
阅读(233)
推荐(0)
CS229 6.3 Neurons Networks Gradient Checking
摘要:BP算法很难调试,一般情况下会隐隐存在一些小问题,比如(off-by-one error),即只有部分层的权重得到训练,或者忘记计算bais unit,这虽然会得到一个正确的结果,但效果差于准确BP得到的结果。 有了cost function,目标是求出一组参数W,b,这里以表示,cost func
阅读全文
posted @
2018-11-26 23:39
Alan_Fire
阅读(195)
推荐(0)
CS229 6.2 Neurons Networks Backpropagation Algorithm
摘要:今天得主题是BP算法。大规模的神经网络可以使用batch gradient descent算法求解,也可以使用 stochastic gradient descent 算法,求解的关键问题在于求得每层中每个参数的偏导数,BP算法正是用来求解网络中参数的偏导数问题的。 先上一张吊炸天的图,可以看到BP
阅读全文
posted @
2018-11-26 23:38
Alan_Fire
阅读(253)
推荐(0)
CS229 6.1 Neurons Networks Representation
摘要:面对复杂的非线性可分的样本是,使用浅层分类器如Logistic等需要对样本进行复杂的映射,使得样本在映射后的空间是线性可分的,但在原始空间,分类边界可能是复杂的曲线。比如下图的样本只是在2维情形下的示例,假设有100维度,即特征数目是100,若使用logistic来做分类,对于这种线性不可分的情形,
阅读全文
posted @
2018-11-26 23:32
Alan_Fire
阅读(153)
推荐(0)
CS229 5.用正则化(Regularization)来解决过拟合
摘要:1 过拟合 过拟合就是训练模型的过程中,模型过度拟合训练数据,而不能很好的泛化到测试数据集上。出现over-fitting的原因是多方面的: 1) 训练数据过少,数据量与数据噪声是成反比的,少量数据导致噪声很大 2 )特征数目过多导致模型过于复杂,如下面的图所示: 看上图中的多项式回归(Polyno
阅读全文
posted @
2018-11-26 22:59
Alan_Fire
阅读(466)
推荐(0)
CS229 3.用Normal Equation拟合Liner Regression模型
摘要:继续考虑Liner Regression的问题,把它写成如下的矩阵形式,然后即可得到θ的Normal Equation. Normal Equation: θ=(XTX)-1XTy 当X可逆时,(XTX)-1XTy = X-1,(XTX)-1XTy其实就是X的伪逆(Pseudo inverse)。这
阅读全文
posted @
2018-11-26 10:24
Alan_Fire
阅读(191)
推荐(0)
CS229 2.深入梯度下降(Gradient Descent)算法
摘要:1 问题的引出 对于上篇中讲到的线性回归,先化一个为一个特征θ1,θ0为偏置项,最后列出的误差函数如下图所示: 手动求解 目标是优化J(θ1),得到其最小化,下图中的×为y(i),下面给出TrainSet,{(1,1),(2,2),(3,3)}通过手动寻找来找到最优解,由图可见当θ1取1时,与y(i
阅读全文
posted @
2018-11-26 10:22
Alan_Fire
阅读(418)
推荐(0)
CS229 1 .线性回归与特征归一化(feature scaling)
摘要:线性回归是一种回归分析技术,回归分析本质上就是一个函数估计的问题(函数估计包括参数估计和非参数估计),就是找出因变量和自变量之间的因果关系。回归分析的因变量是应该是连续变量,若因变量为离散变量,则问题转化为分类问题,回归分析是一个有监督学习问题。 线性其实就是一系列一次特征的线性组合,在二维空间中是
阅读全文
posted @
2018-11-26 10:20
Alan_Fire
阅读(264)
推荐(0)
维数灾难与梯度爆炸
摘要:本文章讨论的话题是“curse of dimension”,即维数灾难,并解释在分类它的重要性,在下面的章节我会对这个概念做一个直观的解释,并清晰的描述一个由维数灾难引起的过度拟合的问题。 下面不如正题,考虑我们有一堆猫和狗的图片,现在要做一个分类器,它可以把猫和狗自动并且正确分类。所以对这个两个类
阅读全文
posted @
2018-11-26 10:06
Alan_Fire
阅读(1963)
推荐(0)
维数灾难
摘要:本文章讨论的话题是“curse of dimension”,即维数灾难,并解释在分类它的重要性,在下面的章节我会对这个概念做一个直观的解释,并清晰的描述一个由维数灾难引起的过度拟合的问题。 下面不如正题,考虑我们有一堆猫和狗的图片,现在要做一个分类器,它可以把猫和狗自动并且正确分类。所以对这个两个类
阅读全文
posted @
2018-11-26 10:05
Alan_Fire
阅读(889)
推荐(0)
机器学习算法思想简单梳理
摘要:朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。 2. 计算公式如下: 其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方
阅读全文
posted @
2018-11-26 09:15
Alan_Fire
阅读(295)
推荐(0)
梯度下降法及其实现
摘要:梯度下降的场景假设 梯度 梯度下降算法的数学解释 梯度下降算法的实例 梯度下降算法的实现 Further reading 本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而从数学上解释梯度下降算法的原理,最后实现一个简单的梯度下降算法的实例! 梯度下降的场景假设 梯度下降法的基本思想可以
阅读全文
posted @
2018-11-26 08:58
Alan_Fire
阅读(536)
推荐(0)