Alan_Fire - 博客园

2018年11月26日

CS229 6.2 Neurons Networks Backpropagation Algorithm

摘要：今天得主题是BP算法。大规模的神经网络可以使用batch gradient descent算法求解，也可以使用 stochastic gradient descent 算法，求解的关键问题在于求得每层中每个参数的偏导数，BP算法正是用来求解网络中参数的偏导数问题的。先上一张吊炸天的图，可以看到BP 阅读全文

posted @ 2018-11-26 23:38 Alan_Fire 阅读(253) 评论(0) 推荐(0)

CS229 6.1 Neurons Networks Representation

摘要：面对复杂的非线性可分的样本是，使用浅层分类器如Logistic等需要对样本进行复杂的映射，使得样本在映射后的空间是线性可分的，但在原始空间，分类边界可能是复杂的曲线。比如下图的样本只是在2维情形下的示例，假设有100维度，即特征数目是100，若使用logistic来做分类，对于这种线性不可分的情形，阅读全文

posted @ 2018-11-26 23:32 Alan_Fire 阅读(153) 评论(0) 推荐(0)

CS229 5.用正则化(Regularization)来解决过拟合

摘要： 1 过拟合过拟合就是训练模型的过程中，模型过度拟合训练数据，而不能很好的泛化到测试数据集上。出现over-fitting的原因是多方面的： 1）训练数据过少，数据量与数据噪声是成反比的，少量数据导致噪声很大 2 ）特征数目过多导致模型过于复杂，如下面的图所示：看上图中的多项式回归（Polyno 阅读全文

posted @ 2018-11-26 22:59 Alan_Fire 阅读(465) 评论(0) 推荐(0)

CS229 4.Logistic Regression

摘要：阅读全文

posted @ 2018-11-26 10:30 Alan_Fire 阅读(92) 评论(0) 推荐(0)

CS229 3.用Normal Equation拟合Liner Regression模型

摘要：继续考虑Liner Regression的问题，把它写成如下的矩阵形式，然后即可得到θ的Normal Equation. Normal Equation： θ=(XTX)-1XTy 当X可逆时，(XTX)-1XTy = X-1，(XTX)-1XTy其实就是X的伪逆（Pseudo inverse）。这阅读全文

posted @ 2018-11-26 10:24 Alan_Fire 阅读(191) 评论(0) 推荐(0)

CS229 2.深入梯度下降(Gradient Descent)算法

摘要： 1 问题的引出对于上篇中讲到的线性回归，先化一个为一个特征θ1，θ0为偏置项，最后列出的误差函数如下图所示：手动求解目标是优化J(θ1)，得到其最小化，下图中的×为y(i)，下面给出TrainSet，{(1,1),(2,2),(3,3)}通过手动寻找来找到最优解，由图可见当θ1取1时，与y(i 阅读全文

posted @ 2018-11-26 10:22 Alan_Fire 阅读(418) 评论(0) 推荐(0)

CS229 1 .线性回归与特征归一化(feature scaling)

摘要：线性回归是一种回归分析技术，回归分析本质上就是一个函数估计的问题（函数估计包括参数估计和非参数估计），就是找出因变量和自变量之间的因果关系。回归分析的因变量是应该是连续变量，若因变量为离散变量，则问题转化为分类问题，回归分析是一个有监督学习问题。线性其实就是一系列一次特征的线性组合，在二维空间中是阅读全文

posted @ 2018-11-26 10:20 Alan_Fire 阅读(264) 评论(0) 推荐(0)

文本分类过程中的朴素贝叶斯多项式与伯努力模型

摘要： 1文本分类过程例如文档：Good good study Day day up可以用一个文本特征向量来表示，x=(Good, good, study, Day, day , up)。在文本分类中，假设我们有一个文档d∈X，类别c又称为标签。我们把一堆打了标签的文档集合<d,c>作为训练样本，<d,c 阅读全文

posted @ 2018-11-26 10:10 Alan_Fire 阅读(2789) 评论(1) 推荐(1)

维数灾难与梯度爆炸

摘要：本文章讨论的话题是“curse of dimension”，即维数灾难，并解释在分类它的重要性，在下面的章节我会对这个概念做一个直观的解释，并清晰的描述一个由维数灾难引起的过度拟合的问题。下面不如正题，考虑我们有一堆猫和狗的图片，现在要做一个分类器，它可以把猫和狗自动并且正确分类。所以对这个两个类阅读全文

posted @ 2018-11-26 10:06 Alan_Fire 阅读(1963) 评论(0) 推荐(0)

维数灾难

posted @ 2018-11-26 10:05 Alan_Fire 阅读(889) 评论(0) 推荐(0)

机器学习算法思想简单梳理

摘要：朴素贝叶斯：有以下几个地方需要注意： 1. 如果给出的特征向量长度可能不同，这是需要归一化为通长度的向量（这里以文本分类为例），比如说是句子单词的话，则长度为整个词汇量的长度，对应位置是该单词出现的次数。 2. 计算公式如下：其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方阅读全文

posted @ 2018-11-26 09:15 Alan_Fire 阅读(295) 评论(0) 推荐(0)

梯度下降法及其实现

摘要：梯度下降的场景假设梯度梯度下降算法的数学解释梯度下降算法的实例梯度下降算法的实现 Further reading 本文将从一个下山的场景开始，先提出梯度下降算法的基本思想，进而从数学上解释梯度下降算法的原理，最后实现一个简单的梯度下降算法的实例！梯度下降的场景假设梯度下降法的基本思想可以阅读全文

posted @ 2018-11-26 08:58 Alan_Fire 阅读(536) 评论(0) 推荐(0)

什么是最小可行性数据产品（MVP）？如何用它做机器学习？

摘要：阅读全文

posted @ 2018-11-26 08:08 Alan_Fire 阅读(230) 评论(0) 推荐(0)

2018年11月19日

用深度学习解决自然语言处理中的7大问题，文本分类、语言建模、机器翻译

摘要：摘要：本文讲的是用深度学习解决自然语言处理中的7大问题，文本分类、语言建模、机器翻译等，自然语言处理领域正在从统计学方法转向神经网络方法。在自然语言中，仍然存在许多具有挑战性的问题。但是，深度学习方法在某些特定的语言问题上取得了state-of-the-art的结果。本文讲的是用深度学习解决自然阅读全文

posted @ 2018-11-19 09:54 Alan_Fire 阅读(731) 评论(0) 推荐(0)

神经网络反向传播梯度计算数学原理

摘要： [神经网络]反向传播梯度计算数学原理 1 文章概述本文通过一段来自于Pytorch官方的warm-up的例子：使用numpy来实现一个简单的神经网络。使用基本的数学原理，对其计算过程进行理论推导，以揭示这几句神奇的代码后面所包含的原理。估计对大多数的同学来说，看完这个文章，肯定会是这样的感觉：字阅读全文

posted @ 2018-11-19 09:50 Alan_Fire 阅读(740) 评论(0) 推荐(0)