12 2016 档案

摘要: 主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。 1. PCA的思想 PCA顾名思义,就是找出数据里最阅读全文
posted @ 2016-12-31 21:07 刘建平Pinard 阅读(76679) | 评论 (139) 编辑
摘要: 在谱聚类(spectral clustering)原理总结中,我们对谱聚类的原理做了总结。这里我们就对scikit-learn中谱聚类的使用做一个总结。 1. scikit-learn谱聚类概述 在scikit-learn的类库中,sklearn.cluster.SpectralClustering阅读全文
posted @ 2016-12-30 17:16 刘建平Pinard 阅读(13346) | 评论 (23) 编辑
摘要: 谱聚类(spectral clustering)是广泛使用的聚类算法,比起传统的K-Means算法,谱聚类对数据分布的适应性更强,聚类效果也很优秀,同时聚类的计算量也小很多,更加难能可贵的是实现起来也不复杂。在处理实际的聚类问题时,个人认为谱聚类是应该首先考虑的几种算法之一。下面我们就对谱聚类的算法阅读全文
posted @ 2016-12-29 11:11 刘建平Pinard 阅读(86109) | 评论 (162) 编辑
摘要: 在DBSCAN密度聚类算法中,我们对DBSCAN聚类算法的原理做了总结,本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结,重点讲述参数的意义和需要调参的参数。 1. scikit-learn中的DBSCAN类 在scikit-learn中,DBSCAN算法类为sklearn.c阅读全文
posted @ 2016-12-24 18:54 刘建平Pinard 阅读(37490) | 评论 (45) 编辑
摘要: DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用阅读全文
posted @ 2016-12-22 16:32 刘建平Pinard 阅读(86197) | 评论 (55) 编辑
摘要: 在BIRCH聚类算法原理中,我们对BIRCH聚类算法的原理做了总结,本文就对scikit-learn中BIRCH算法的使用做一个总结。 1. scikit-learn之BIRCH类 在scikit-learn中,BIRCH类实现了原理篇里讲到的基于特征树CF Tree的聚类。因此要使用BIRCH来聚阅读全文
posted @ 2016-12-19 22:00 刘建平Pinard 阅读(8668) | 评论 (23) 编辑
摘要: 在K-Means聚类算法原理中,我们讲到了K-Means和Mini Batch K-Means的聚类原理。这里我们再来看看另外一种常见的聚类算法BIRCH。BIRCH算法比较适合于数据量大,类别数K也比较多的情况。它运行速度很快,只需要单遍扫描数据集就能进行聚类,当然需要用到一些技巧,下面我们就对B阅读全文
posted @ 2016-12-14 17:13 刘建平Pinard 阅读(24751) | 评论 (44) 编辑
摘要: 在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类。重点讲述如何选择合适的k值。 1. K-Means类概述 在scikit-learn中,包括两个K-Means的算法,一个是传统的K-Means算法,对应的类是KM阅读全文
posted @ 2016-12-13 15:50 刘建平Pinard 阅读(41796) | 评论 (34) 编辑
摘要: K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的阅读全文
posted @ 2016-12-12 16:57 刘建平Pinard 阅读(61561) | 评论 (38) 编辑
摘要: 在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结。本文就从实践的角度对RF做一个总结。重点讲述scikit-learn中RF的调参注意事项,以及和GBDT调参的异同点。 1. scikit-learn随机森林类库概述 在scikit阅读全文
posted @ 2016-12-11 21:23 刘建平Pinard 阅读(54448) | 评论 (69) 编辑
摘要: 在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boosting派系,它的特点是各个弱学习器之间有依赖关系。另一种是bagging流派,它的特点是各个弱学习器之间没有依赖关系,可以并行拟合。本文就对集成学习中Bagging与随机森林算法做一个总结。 随机森林是集成学习中可以和梯度提升树GB阅读全文
posted @ 2016-12-10 20:38 刘建平Pinard 阅读(59954) | 评论 (72) 编辑
摘要: 在梯度提升树(GBDT)原理小结中,我们对GBDT的原理做了总结,本文我们就从scikit-learn里GBDT的类库使用方法作一个总结,主要会关注调参中的一些要点。 1. scikit-learn GBDT类库概述 在sacikit-learn中,GradientBoostingClassifie阅读全文
posted @ 2016-12-09 17:17 刘建平Pinard 阅读(40232) | 评论 (66) 编辑
摘要: 在集成学习之Adaboost算法原理小结中,我们对Boosting家族的Adaboost算法做了总结,本文就对Boosting家族中另一个重要的算法梯度提升树(Gradient Boosting Decison Tree, 以下简称GBDT)做一个总结。GBDT有很多简称,有GBT(Gradient阅读全文
posted @ 2016-12-07 19:59 刘建平Pinard 阅读(165969) | 评论 (357) 编辑
摘要: 在集成学习之Adaboost算法原理小结中,我们对Adaboost的算法原理做了一个总结。这里我们就从实用的角度对scikit-learn中Adaboost类库的使用做一个小结,重点对调参的注意事项做一个总结。 1. Adaboost类库概述 scikit-learn中Adaboost类库比较直接,阅读全文
posted @ 2016-12-06 19:41 刘建平Pinard 阅读(33939) | 评论 (50) 编辑
摘要: 在集成学习原理小结中,我们讲到了集成学习按照个体学习器之间是否存在依赖关系可以分为两类,第一个是个体学习器之间存在强依赖关系,另一类是个体学习器之间不存在强依赖关系。前者的代表算法就是是boosting系列算法。在boosting系列算法中, Adaboost是最著名的算法之一。Adaboost既可阅读全文
posted @ 2016-12-05 22:26 刘建平Pinard 阅读(47225) | 评论 (195) 编辑
摘要: 集成学习(ensemble learning)可以说是现在非常火爆的机器学习方法了。它本身不是一个单独的机器学习算法,而是通过构建并结合多个机器学习器来完成学习任务。也就是我们常说的“博采众长”。集成学习可以用于分类问题集成,回归问题集成,特征选取集成,异常点检测集成等等,可以说所有的机器学习领域都阅读全文
posted @ 2016-12-04 20:48 刘建平Pinard 阅读(49876) | 评论 (45) 编辑
摘要: 在支持向量机(以下简称SVM)的核函数中,高斯核(以下简称RBF)是最常用的,从理论上讲, RBF一定不比线性核函数差,但是在实际应用中,却面临着几个重要的超参数的调优问题。如果调的不好,可能比线性核函数还要差。所以我们实际应用中,能用线性核函数得到较好效果的都会选择线性核函数。如果线性核不好,我们阅读全文
posted @ 2016-12-02 21:59 刘建平Pinard 阅读(15574) | 评论 (19) 编辑