随笔分类 - 机器学习
摘要:之前有将集成学习中的随机森林、GBDT、XGBoost等算法进行一一介绍,明白了每个算法的大概原理,最近复习了一下李宏毅老师的集成学习的课程,忽然对集成有了更清晰的认识,这里做一个回顾和总结。 集成学习回顾及总结 集成学习从直观的意思来说,就是合众人之力来解决一个问题,而每个人所起的作用又不相同,最
阅读全文
摘要:SVM的另一种解释 前面已经较为详细地对SVM进行了推导,前面有提到SVM可以利用梯度下降来进行求解,但并未进行详细的解释,本节主要从另一个视角对SVM进行解释,首先先回顾之前有关SVM的有关内容,然后从机器学习的三步走的角度去对SVM进行一个解释。 那么对于传统的机器学习,每个方法最大区别就是损失
阅读全文
摘要:前面无监督学习主要针对的是一种“降维”的学习任务,将数据降维到另一个能够表达数据含义的某种空间中,本节主要是无监督学习中的另一个任务——生成进行介绍。 生成模型 0.生成模型介绍 通常生成模型是指学习样本数据的分布,可以生成一些新的数据,是相对于判别模型而言的,并不特指有监督学习和无监督学习,比如朴
阅读全文
摘要:前面介绍了一些降维的方法(PCA、TSNE、LLE、AutoEncoder),本节主要来了解一下在自然语言处理中的数据的降维,即如何把语言进行降维表示。 0.Word Embedding简介 Word Embedding对于自然语言处理是一个关键的技术。在前面讲到的机器学习算法都是基于数据本身的,而
阅读全文
摘要:前面主要回顾了无监督学习中的三种降维方法,本节主要学习另一种无监督学习AutoEncoder,这个方法在无监督学习领域应用比较广泛,尤其是其思想比较通用。 AutoEncoder 0.AutoEncoder简介 在PCA一节中提到,PCA的可以看做是一种NN模型,通过输入数据,乘以权重w即可得到降维
阅读全文
摘要:在上一节介绍了一种最常见的降维方法PCA,本节介绍另一种降维方法LLE,本来打算对于其他降维算法一并进行一个简介,不过既然看到这里了,就对这些算法做一个相对详细的学习吧。 0.流形学习简介 在前面PCA中说到,PCA是一种无法将数据进行拉直,当直接对于曲面进行降维后,导致数据的重叠,难以区分,如下图
阅读全文
摘要:前面对半监督学习部分作了简单的介绍,这里开始了解有关无监督学习的部分,无监督学习内容稍微较多,本节主要介绍无监督学习中的PCA降维的基本原理和实现。 PCA 0.无监督学习简介 相较于有监督学习和半监督学习,无监督学习就是从没有标签的数据中进行知识发现的过程。 更具体地说,无监督学习可以分成两个方面
阅读全文
摘要:前面说了一部分有监督学习的有关算法,本节主要对半监督学习做一个简单的介绍,当然,有监督学习还有很多其他的算法,后面会不断完善和补充。 半监督学习简介 0.前言 这里半监督学习的内容只做一些初步的介绍,理解半监督学习是如何进行学习的,主要叙述原理,看一下半监督学习是如何工作的,不针对具体算法进行深究,
阅读全文
摘要:层次聚类和DBSCAN 前面说到K-means聚类算法,K-Means聚类是一种分散性聚类算法,本节主要是基于数据结构的聚类算法——层次聚类和基于密度的聚类算法——DBSCAN两种算法。 1.层次聚类 下面这样的结构应该比较常见,这就是一种层次聚类的树结构,层次聚类是通过计算不同类别点的相似度创建一
阅读全文
摘要:实战部分主要针对某一具体算法对其原理进行较为详细的介绍,然后进行简单地实现(可能对算法性能考虑欠缺),这一部分主要介绍一些常见的一些聚类算法。 K-means聚类算法 0.聚类算法算法简介 聚类算法算是机器学习中最为常见的一类算法,在无监督学习中,可以说聚类算法有着举足轻重的地位。 提到无监督学习,
阅读全文
摘要:最近几天陆续补充了一些“线性回归”部分内容,这节继续机器学习基础部分,这节主要对CNN的基础进行整理,仅限于基础原理的了解,更复杂的内容和实践放在以后再进行总结。 卷积神经网络的基本原理 前面对全连接神经网络和深度学习进行了简要的介绍,这一节主要对卷积神经网络的基本原理进行学习和总结。 所谓卷积,就
阅读全文
摘要:继续回到神经网络章节,上次只对模型进行了简要的介绍,以及做了一个Hello World的练习,这节主要是对当我们结果不好时具体该去做些什么呢?本节就总结一些在深度学习中一些基本的解决问题的办法。 为什么说是“基本的办法”?因为这一部分主要是比较基础的内容,是一些常用的,比较容易理解的,不过多的去讨论
阅读全文
摘要:在机器学习三步走中,其中最重要的就是第二步找到用于衡量模型好坏的方法,也就是损失函数,通过求解最小化损失,从而求得模型的参数。前面分别对线性回归、LR以及实战部分的SVM、决策树以及集成学习算法进行了概述,其中都用到了不同的损失函数,今天在这里对机器学习中常见的损失函数进行一个总结。 常见损失函数总
阅读全文
摘要:神经网络是深度学习的基础,上节提到由LR能够联系到神经网络,本节就对神经网络和BP算法进行一个回顾和总结。 1.由LR到神经网络 前面在逻辑回归的文章末尾提到,当样本是线性不可分时,需要对样本数据进行转换,转换过后在进行分类,那么转换的这个步骤就成为特征的提取的过程,结构如图所示: 如上图所示,图中
阅读全文
摘要:本节主要是填前面的坑,前面要对正则化,以及多分类的问题进行一个单独总结,这里就通过搜集一些网上资料对这两块内容进行一个总结。 1.正则化 正则化是一种回归形式,为了防止模型的过拟合的方法,它将系数估计(coefficient estimate)朝零的方向进行约束、调整或缩小。 也就是说,正则化可以在
阅读全文
摘要:LR算法作为一种比较经典的分类算法,在实际应用和面试中经常受到青睐,虽然在理论方面不是特别复杂,但LR所牵涉的知识点还是比较多的,同时与概率生成模型、神经网络都有着一定的联系,本节就针对这一算法及其所涉及的知识进行详细的回顾。 LogisticRegression 0.前言 LR是一种经典的成熟算法
阅读全文
摘要:梯度下降是机器学习中一种重要的优化算法,不单单涉及到经典机器学习算法,在神经网络、深度学习以及涉及到模型参数训练的很多场景都要用到梯度下降算法,因此在此单独作为1节对这部分进行总结,主要从梯度下降的原理,优化的梯度下降方法包括SGD、MBGD、Adagrad、Momentm、RMSprop、Adam
阅读全文
摘要:之前看过一些有关机器学习的基础资料和视频,但很多知识点都记不太清了,现在专门开个专题,根据自己的理解将之前学过的进行回顾和整理,可能会引用一些例子和资料,资料主要来源于视频学习和《统计学习方法》一书,可能对于一些不清楚的问题会翻看一些博客等资料。 本节主要针对线性回归的原理以及梯度下降求解方法进行回
阅读全文
摘要:上一节对XGBoost算法的原理和过程进行了描述,XGBoost在算法优化方面主要在原损失函数中加入了正则项,同时将损失函数的二阶泰勒展开近似展开代替残差(事实上在GBDT中叶子结点的最优值求解也是使用的二阶泰勒展开(详细上面Tips有讲解),但XGBoost在求解决策树和最优值都用到了),同时在求
阅读全文
摘要:XGBoost是陈天奇等人开发的一个开源项目,前文提到XGBoost是GBDT的一种提升和变异形式,其本质上还是一个GBDT,但力争将GBDT的性能发挥到极致,因此这里的X指代的“Extreme”的意思。XGBoost通过在算法和工程上进行了改进,使其在性能和精度上都得到了很大的提升,也成为了Kag
阅读全文

浙公网安备 33010602011771号