随笔分类 -  吴恩达《机器学习》

摘要:(1)涉及到的算法 1.监督学习:线性回归,逻辑回归,神经网络,SVM。 线性回归(下面第三行x0(i)其实是1,可以去掉) 逻辑回归 神经网络(写出前向传播即可,反向框架会自动计算) SVM 2.非监督学习:聚类算法(K-mean),降维(PCA) K-mean PCA 3.异常检测 4.推荐系统 阅读全文
posted @ 2018-07-07 16:50 ysyouaremyall 阅读(332) 评论(1) 推荐(0)
摘要:17.1大型数据集的学习 首先通过学习曲线判断是否增大数据集有效: 高方差时(交叉验证集误差减去训练集误差大时)增加数据集可以提高系统。下图中左图增加数据集有效,右图无效。 17.2随机梯度下降法 随机梯度下降法是只使用一个样本来迭代,其损失函数为: 迭代过程为: 特点: (1)计算量小,迭代速度快 阅读全文
posted @ 2018-07-07 15:57 ysyouaremyall 阅读(370) 评论(0) 推荐(0)
摘要:16.1问题形式化 (1)讲推荐系统的原因主要有以下几点: 1.推荐系统是一个很重要的机器学习的应用,虽然在学术界上占比较低,但是在商业应用中非常的重要,占有很高的优先级。 2.传达机器学习的一个大思想:特性是可以学习而来的,不需要人工去选择。 (2)说明的案例:电影推荐系统 希望创建一个算法来预测 阅读全文
posted @ 2018-07-07 14:30 ysyouaremyall 阅读(522) 评论(0) 推荐(0)
摘要:15.1问题的动机 将正常的样本绘制成图表(假设可以),如下图所示: 当新的测试样本同样绘制到图标上,如果偏离中心越远说明越可能不正常,使用某个可能性阈值,当低于正常可能性阈值时判断其为异常,然后做进一步的检查。异常检测常用于工业生产、异常用户等实际场景中。 以上这种方法叫密度评估: 15.2高斯分 阅读全文
posted @ 2018-07-06 13:40 ysyouaremyall 阅读(756) 评论(4) 推荐(0)
摘要:18.1问题描述和流程图 (1)图像文字识别是从给定的一张图片中识别文字。 (2)流程包括: 1.文字侦测 2.字符切分(现在不需要切分了) 3.字符分类 18.2滑动窗口 在行人检测中,滑动窗口是首先训练一个固定尺寸输入的判断是否有行人的网络,然后在一张图片中裁该尺寸的图片,送入到网络中;然后不断 阅读全文
posted @ 2018-07-04 22:57 ysyouaremyall 阅读(343) 评论(0) 推荐(0)
摘要:14.1动机一:数据压缩 将特征进行降维,如将相关的二维降到一维: 三维变二维: 以此类推把1000维数据降成100维数据。 14.2动机二:数据可视化 如50个维度的数据是无法进行可视化的,使用降维的方法可以使其降到2维,然后进行可视化。 降维的算法只负责减少维度,新产生的特征的意义就必须有我们自 阅读全文
posted @ 2018-07-04 22:18 ysyouaremyall 阅读(715) 评论(0) 推荐(0)
摘要:13.1无监督学习:简介 将没有标签的样本分成不同的集合(簇),这种算法叫做聚类。常用的领域有市场分割、社交网络分析、计算机集群管理、了解星系等。 13.2K-均值算法 (1)K-均值是最普及的聚类算法,是一种迭代算法,假设需要将数据聚类成n个组,这时候首先随机选择K个点,称为聚类中心。 将每个样本 阅读全文
posted @ 2018-07-03 22:31 ysyouaremyall 阅读(456) 评论(0) 推荐(0)
摘要:12.1目标优化 (1)以下是逻辑回归以及单个样本的代价函数 (2)首先将使用上图中紫色的线(称为cost1或者cost0)的代替曲线,然后将样本数m去掉,最后将C代替1/λ(可以这么理解,但不完全是),从而实现逻辑回归的代价函数到SVM的转换。 (3)SVM的输出将不再是逻辑回归的概率,而就是0或 阅读全文
posted @ 2018-07-03 21:37 ysyouaremyall 阅读(1092) 评论(0) 推荐(0)
摘要:11.1首先要做什么 本章将在随后的课程中讲误差分析,然后怎样用一个更加系统性非方法,从一堆不同的方法中,选取合适的那一个。 11.2误差分析 构建一个学习算法的推荐方法为: (1)从一个简单的能快速实现的算法开始,实现该算法并用交叉验证集数据测试这个算法; (2)绘制学习曲线,决定是增加更多数据, 阅读全文
posted @ 2018-07-03 18:55 ysyouaremyall 阅读(305) 评论(0) 推荐(0)
摘要:10.1决定下一步该干什么 当系统的效果很差时,你可能考虑到收集更多的样本,也可能: (1)尝试减少特征的数量; (2)尝试获得更多的特征; (3)尝试增加多项式特征; (4)尝试减少正则化程度λ; (5)尝试增加正则化程度λ。 如果做决策将是本章的内容。而不是盲目的选择一种策略。 10.2评估一个 阅读全文
posted @ 2018-07-03 13:06 ysyouaremyall 阅读(511) 评论(0) 推荐(0)
摘要:9.1代价函数 (1)假设神经网络的训练样本有m个,每一个包含一组输入x和一组输出信号y,L表示神经网络的层数,Sl表示每一层的神经元个数,SL代表最后一层中处理单元的个数。 则代价函数为(同样不对θ0正则化): 9.2反向传播算法 前向传播算法: 用δ表示误差,则δ(4)=a(4)-y 前一层的误 阅读全文
posted @ 2018-07-02 19:39 ysyouaremyall 阅读(239) 评论(0) 推荐(0)
摘要:8.1非线性假设 (1)无论线性回归还是逻辑回归当特征量太多时,计算的负荷会非常大。如50x50像素有2500特征,如果两两组合将会有25002/2个(接近300万个特征)。普通的线性回归和逻辑回归模型不能有效处理这么多特征,这时候需要用神经网络了。 8.2神经元和大脑 大脑的某一块可以经过学习,学 阅读全文
posted @ 2018-07-01 23:06 ysyouaremyall 阅读(283) 评论(0) 推荐(0)
摘要:7.1过拟合的问题 训练集表现良好,测试集表现差。鲁棒性差。以下是两个例子(一个是回归问题,一个是分类问题) 解决办法: (1)丢弃一些不能帮助我们正确预测的特征。可以使用工选择保留哪些特征,或者使用一些模型选择的算法来帮忙(PCA); (2)正则化。保留素有的特征,但是减少参数的大小。 7.2代价 阅读全文
posted @ 2018-07-01 22:22 ysyouaremyall 阅读(221) 评论(0) 推荐(0)
摘要:6.1分类问题 回归问题的输出可能是很大的数,而在分类问题中,比如二分类,希望输出的值是0或1,如何将回归输出的值转换成分类的输出0,1成为关键。 6.2假说表示 其中: hθ(x)的作用是,对于给定的输入变量,根据选择的参数计算输出变量=1的可能性即hθ(x)=P(y=1|x;θ)。 6.3判定边 阅读全文
posted @ 2018-07-01 22:04 ysyouaremyall 阅读(311) 评论(0) 推荐(0)
摘要:推荐使用python,本节略。 阅读全文
posted @ 2018-07-01 20:36 ysyouaremyall 阅读(213) 评论(0) 推荐(0)
摘要:4.1多维特征 上图中列数即为特征的个数,行数是样本数。函数假设如下: 其中x0=1。 4.2多变量梯度下降 和单变量的损失函数相同: 其中, 求导迭代如下: 4.3梯度下降法实践1-特征缩放 特征之间的尺度变化相差很大(如一个是0-1000,一个是0-5),梯度算法需要非常多次的迭代才能收敛,如下 阅读全文
posted @ 2018-07-01 20:35 ysyouaremyall 阅读(426) 评论(1) 推荐(0)
摘要:3.1矩阵和向量 几行几列即为矩阵。Aij表示第i行第j列。 只有一行或者一列的称为向量,向量是一种特殊矩阵。一般向量指的是列向量。 3.2加法和标量乘法 加法:元素对应相加。 标量乘法:标量和矩阵每一个元素相乘。 3.3矩阵向量乘法 3.4矩阵乘法 要求:第一个矩阵的列数等于第二个矩阵的行数,如m 阅读全文
posted @ 2018-06-25 23:18 ysyouaremyall 阅读(435) 评论(0) 推荐(0)
摘要:2.1模型表示 (1)监督学习中的回归问题案例房价预测 (2)监督算法的工作方式 案例中:m表示训练集的数量,x代表特征/输入变量,y代表目标变量/输出变量,(x,y)代表实例,(x(i),y(i))代表第i个观察实例,h代表假设/函数/输入到输出的映射。 (3)房价预测的一种表达方式:h(Θ)=Θ 阅读全文
posted @ 2018-06-25 22:49 ysyouaremyall 阅读(366) 评论(0) 推荐(0)
摘要:1.1欢迎 1.2机器学习是什么 (1)一种机器学习的定义:一个程序被认为能从经验E中学习,解决任务T,达到性能指标度量值P,当且仅当,有了经验E后,经过P评判,程序在处理T时的性能有所提升。 (2)机器学习算法主要分为监督学习和非监督学习。监督学习是我们将教计算机如何去完成任务,非监督学习是我们打 阅读全文
posted @ 2018-06-25 12:56 ysyouaremyall 阅读(405) 评论(0) 推荐(1)