正规方程的可逆性
摘要:如果XTX不可逆:常见的原因可能是: 1.冗余特征,其中两个特征是非常密切相关的(即它们是线性相关的)。 2.太多的变量(例如M≤N)。在这种情况下,删除某些特性或使用“正则化”(后面的课中将对此进行解释)。 解决上述问题的方法包括删除一个与另一个线性相关的特性,或者在有太多特性时删除一个或多个特性
阅读全文
posted @
2017-07-23 15:51
郑哲
阅读(285)
推荐(0)
正规方程
摘要:梯度下降提供了一种最小化J的方法。让我们讨论第二种方法,这一次显式地执行最小化,而不用迭代算法。在“方程”的方法,我们将最大限度地减少J通过明确其衍生物相对于θJ的,并使其为零。这使我们能够在没有迭代的情况下找到最佳θ。下面给出正规方程公式。 正规方程不需要进行特征缩放。 下面是梯度下降和正规方程的
阅读全文
posted @
2017-07-23 14:40
郑哲
阅读(249)
推荐(0)
特征与多项式回归
摘要:我们可以用几种不同的方法来改进我们的特征和假设函数的形式。 我们可以把多个特征组合成一个。例如,我们可以将X1和X2为新变量x3。 多项式回归: 我们的假设函数不一定是线性的(如果不符合数据的话)。 我们可以通过假设它的二次、三次或平方根函数(或任何其他形式)来改变我们的假设函数的行为或曲线。 例如
阅读全文
posted @
2017-07-23 14:31
郑哲
阅读(348)
推荐(0)
学习中的梯度下降Ⅱ-学习率
摘要:调试梯度下降。用x轴上的迭代数绘制一个图。现在测量成本函数,J(θ)随迭代次数下降。如果J(θ)不断增加,那么你可能需要减少α。 自动收敛试验。如果该声明收敛(θ)小于E在一次迭代中减少,其中E是一些小的值,如10−3。然而,在实践中很难选择这个阈值。 它已被证明,如果学习率α足够小,那么J(θ)每
阅读全文
posted @
2017-07-23 14:18
郑哲
阅读(222)
推荐(0)
梯度下降在实践I -特征缩放
摘要:我们可以通过使每个输入值在大致相同的范围内加快梯度下降速度。这是因为θ下降很快在小范围和在大范围很慢,所以将振荡不到最佳当变量很不平衡 防止这种情况的方法是修改输入变量的范围,使它们完全相同。理想的: 这些不是确切的要求,我们只是想加快速度。我们的目标是将所有输入变量大致放在其中一个范围内,或取一些
阅读全文
posted @
2017-07-23 14:06
郑哲
阅读(156)
推荐(0)
多变量的梯度下降
摘要:梯度下降方程本身通常是相同的形式,我们只需重复它的“N”特征: 换句话说:
阅读全文
posted @
2017-07-23 13:58
郑哲
阅读(187)
推荐(0)
多个变量的线性回归
摘要:多元线性回归也被称为多元线性回归。 我们现在介绍方程的符号,我们可以有任意数量的输入变量。 xj(i):第i个训练样本中的第j个变量。 x(i):第i个训练样本中的变量。 m:训练样本的数量。 n:变量的个数。 容纳这些多个特征的假设函数的多变量形式如下: 为了开发这个功能的直觉,我们可以想一想,θ
阅读全文
posted @
2017-07-23 13:52
郑哲
阅读(471)
推荐(0)
线性回归的梯度下降
摘要:Note: [At 6:15 "h(x) = -900 - 0.1x" should be "h(x) = 900 - 0.1x"] 当具体应用于线性回归的情况下,可以推导出一种新的梯度下降方程。我们可以用我们实际的成本函数和我们实际的假设函数来代替,并将公式修改为: 其中M是训练集的规模,θ0常数
阅读全文
posted @
2017-07-23 13:19
郑哲
阅读(341)
推荐(0)
梯度下降的直觉
摘要:我们探讨的情况下,我们使用一个参数θ1和绘制其成本函数来实现梯度下降。我们对一个参数的公式是重复直至收敛: 不管斜坡的标志是什么,θ1最终收敛到最小值。下面的图表显示,当斜率为负,价值θ1增加当它是正的,对θ1值减 另一方面,我们应该调整参数α,以确保梯度下降算法在合理的时间内收敛。未能收敛或太多的
阅读全文
posted @
2017-07-23 09:23
郑哲
阅读(333)
推荐(0)
梯度下降
摘要:所以我们有了我们的假设函数,我们有一种方法来测量它与数据的吻合程度。现在我们需要估计假设函数中的参数。这就是梯度下降的来源。想象我们图基于其领域θ0和θ1我们假设函数(实际上我们是图形的成本函数作为参数估计的函数)。我们不是绘制x和y本身,而是我们假设函数的参数范围和选择一组特定参数所产生的代价我们
阅读全文
posted @
2017-07-23 09:12
郑哲
阅读(159)
推荐(0)
成本函数-直觉II
摘要:等高线图是包含许多等高线的图形。两个变量函数的等值线在同一直线的所有点上都有一个恒定值。这种图的一个例子是右下方的一个图。 采取任何颜色和沿着'圈',人们会期望得到相同的值的成本函数。例如,三个绿色的点上绿色线为J值相同(θ0,θ1)和作为一个结果,他们发现,在同一直线上。盘旋的X显示的成本函数在离
阅读全文
posted @
2017-07-23 09:04
郑哲
阅读(418)
推荐(0)
成本函数的第一直觉
摘要:如果我们想在视觉方面的话,我们的训练数据集是散落在X-Y平面。我们试图使一个直线(Hθ定义(x)),通过这些散乱数据点。 我们的目标是找到最好的路线。最好的线将是这样的,以便从线的散乱点的平均平方垂直距离将是最小的。理想情况下,该行应该通过我们训练数据集的所有点。在这种情况下,J值(θ0,θ1)将0
阅读全文
posted @
2017-07-23 08:47
郑哲
阅读(158)
推荐(0)
成本函数(Cost Function)
摘要:我们通过成本函数来衡量我们预测的准确性。 通过平均差的方式得到: 这个函数被称为“平方误差函数”或“均方误差”。 下面的图就是成本函数:
阅读全文
posted @
2017-07-22 21:22
郑哲
阅读(1545)
推荐(0)
符号说明
摘要:x(i):输入的数据。 y(i):输出的数据。 (x(i),y(i)):一个训练实例。 (x(i),y(i)) i=1····m:训练集。 h(x)=y:监督学习中的预测关系。
阅读全文
posted @
2017-07-22 21:14
郑哲
阅读(159)
推荐(0)
无监督学习
摘要:在无监督学习中,我们很少或者根本不知道结果是什么样子。我们可以根据数据中变量之间的关系对数据进行聚类,无监督学习没有基于预测结果的反馈。 例子: 聚类:收集1000000个不同的基因,并找到一种方法,自动将这些基因分成不同的变量组,如寿命、位置、角色等。非聚类:“鸡尾酒会算法”,让你在混乱的环境中找
阅读全文
posted @
2017-07-22 20:53
郑哲
阅读(130)
推荐(0)
监督学习
摘要:在监督学习中,我们有一些输入并且知道他们的正确输出,我们想知道这些输入和输出之间的联系。 监督学习分为回归和分类: 1.回归:输出结果为连续的值。 2.分类:输出结果为离散的点。 例子1: 回归:我们有一些数据关于房子大小和对应的价格。通过这些数据得到一个函数预测价格。 分类:判断我们售价是否高于实
阅读全文
posted @
2017-07-22 20:48
郑哲
阅读(133)
推荐(0)