上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 21 下一页
摘要: 今天得主题是BP算法。大规模的神经网络可以使用batch gradient descent算法求解,也可以使用 stochastic gradient descent 算法,求解的关键问题在于求得每层中每个参数的偏导数,BP算法正是用来求解网络中参数的偏导数问题的。 先上一张吊炸天的图,可以看到BP 阅读全文
posted @ 2018-11-26 23:38 Alan_Fire 阅读(253) 评论(0) 推荐(0)
摘要: 面对复杂的非线性可分的样本是,使用浅层分类器如Logistic等需要对样本进行复杂的映射,使得样本在映射后的空间是线性可分的,但在原始空间,分类边界可能是复杂的曲线。比如下图的样本只是在2维情形下的示例,假设有100维度,即特征数目是100,若使用logistic来做分类,对于这种线性不可分的情形, 阅读全文
posted @ 2018-11-26 23:32 Alan_Fire 阅读(153) 评论(0) 推荐(0)
摘要: 1 过拟合 过拟合就是训练模型的过程中,模型过度拟合训练数据,而不能很好的泛化到测试数据集上。出现over-fitting的原因是多方面的: 1) 训练数据过少,数据量与数据噪声是成反比的,少量数据导致噪声很大 2 )特征数目过多导致模型过于复杂,如下面的图所示: 看上图中的多项式回归(Polyno 阅读全文
posted @ 2018-11-26 22:59 Alan_Fire 阅读(465) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-11-26 10:30 Alan_Fire 阅读(92) 评论(0) 推荐(0)
摘要: 继续考虑Liner Regression的问题,把它写成如下的矩阵形式,然后即可得到θ的Normal Equation. Normal Equation: θ=(XTX)-1XTy 当X可逆时,(XTX)-1XTy = X-1,(XTX)-1XTy其实就是X的伪逆(Pseudo inverse)。这 阅读全文
posted @ 2018-11-26 10:24 Alan_Fire 阅读(191) 评论(0) 推荐(0)
摘要: 1 问题的引出 对于上篇中讲到的线性回归,先化一个为一个特征θ1,θ0为偏置项,最后列出的误差函数如下图所示: 手动求解 目标是优化J(θ1),得到其最小化,下图中的×为y(i),下面给出TrainSet,{(1,1),(2,2),(3,3)}通过手动寻找来找到最优解,由图可见当θ1取1时,与y(i 阅读全文
posted @ 2018-11-26 10:22 Alan_Fire 阅读(418) 评论(0) 推荐(0)
摘要: 线性回归是一种回归分析技术,回归分析本质上就是一个函数估计的问题(函数估计包括参数估计和非参数估计),就是找出因变量和自变量之间的因果关系。回归分析的因变量是应该是连续变量,若因变量为离散变量,则问题转化为分类问题,回归分析是一个有监督学习问题。 线性其实就是一系列一次特征的线性组合,在二维空间中是 阅读全文
posted @ 2018-11-26 10:20 Alan_Fire 阅读(264) 评论(0) 推荐(0)
摘要: 1文本分类过程 例如文档:Good good study Day day up可以用一个文本特征向量来表示,x=(Good, good, study, Day, day , up)。在文本分类中,假设我们有一个文档d∈X,类别c又称为标签。我们把一堆打了标签的文档集合<d,c>作为训练样本,<d,c 阅读全文
posted @ 2018-11-26 10:10 Alan_Fire 阅读(2789) 评论(1) 推荐(1)
摘要: 本文章讨论的话题是“curse of dimension”,即维数灾难,并解释在分类它的重要性,在下面的章节我会对这个概念做一个直观的解释,并清晰的描述一个由维数灾难引起的过度拟合的问题。 下面不如正题,考虑我们有一堆猫和狗的图片,现在要做一个分类器,它可以把猫和狗自动并且正确分类。所以对这个两个类 阅读全文
posted @ 2018-11-26 10:06 Alan_Fire 阅读(1963) 评论(0) 推荐(0)
摘要: 本文章讨论的话题是“curse of dimension”,即维数灾难,并解释在分类它的重要性,在下面的章节我会对这个概念做一个直观的解释,并清晰的描述一个由维数灾难引起的过度拟合的问题。 下面不如正题,考虑我们有一堆猫和狗的图片,现在要做一个分类器,它可以把猫和狗自动并且正确分类。所以对这个两个类 阅读全文
posted @ 2018-11-26 10:05 Alan_Fire 阅读(889) 评论(0) 推荐(0)
摘要: 朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。 2. 计算公式如下: 其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方 阅读全文
posted @ 2018-11-26 09:15 Alan_Fire 阅读(295) 评论(0) 推荐(0)
摘要: 梯度下降的场景假设 梯度 梯度下降算法的数学解释 梯度下降算法的实例 梯度下降算法的实现 Further reading 本文将从一个下山的场景开始,先提出梯度下降算法的基本思想,进而从数学上解释梯度下降算法的原理,最后实现一个简单的梯度下降算法的实例! 梯度下降的场景假设 梯度下降法的基本思想可以 阅读全文
posted @ 2018-11-26 08:58 Alan_Fire 阅读(536) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-11-26 08:08 Alan_Fire 阅读(230) 评论(0) 推荐(0)
摘要: 摘要: 本文讲的是用深度学习解决自然语言处理中的7大问题,文本分类、语言建模、机器翻译等,自然语言处理领域正在从统计学方法转向神经网络方法。在自然语言中,仍然存在许多具有挑战性的问题。但是,深度学习方法在某些特定的语言问题上取得了state-of-the-art的结果。 本文讲的是用深度学习解决自然 阅读全文
posted @ 2018-11-19 09:54 Alan_Fire 阅读(731) 评论(0) 推荐(0)
摘要: [神经网络]反向传播梯度计算数学原理 1 文章概述 本文通过一段来自于Pytorch官方的warm-up的例子:使用numpy来实现一个简单的神经网络。使用基本的数学原理,对其计算过程进行理论推导,以揭示这几句神奇的代码后面所包含的原理。 估计对大多数的同学来说,看完这个文章,肯定会是这样的感觉:字 阅读全文
posted @ 2018-11-19 09:50 Alan_Fire 阅读(740) 评论(0) 推荐(0)
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 21 下一页