数据科学家成长之旅

关注 机器学习,深度学习,自然语言处理,数学

随笔分类 -  机器学习

特征选择(一)- 维数问题与类内距离
摘要:原文地址:http://blog.csdn.net/ycheng_sjtu/article/details/25343043 什么是特征选择? 简单说,特征选择就是降维。 特征选择的任务 就是要从n维向量中选取m个特征,把原向量降维成为一个m维向量。但是降维必须保证类别的可分离性或者说分类器的性能下 阅读全文

posted @ 2017-03-13 16:27 会飞的蝸牛 阅读(3435) 评论(0) 推荐(1)

特征选择(二)- 聚类变换
摘要:上一讲说到,各个特征(各个分量)对分类来说,其重要性当然是不同的。舍去不重要的分量,这就是降维。 聚类变换认为:重要的分量就是能让变换后类内距离小的分量。 类内距离小,意味着抱团抱得紧。 但是,抱团抱得紧,真的就一定容易分类么? 如图1所示,根据聚类变换的原则,我们要留下方差小的分量,把方差大(波动 阅读全文

posted @ 2017-03-13 16:26 会飞的蝸牛 阅读(2337) 评论(0) 推荐(0)

特征选择(三)- K-L变换
摘要:上一讲说到,各个特征(各个分量)对分类来说,其重要性当然是不同的。舍去不重要的分量,这就是降维。 聚类变换认为:重要的分量就是能让变换后类内距离小的分量。 类内距离小,意味着抱团抱得紧。 但是,抱团抱得紧,真的就一定容易分类么? 如图1所示,根据聚类变换的原则,我们要留下方差小的分量,把方差大(波动 阅读全文

posted @ 2017-03-13 16:26 会飞的蝸牛 阅读(1295) 评论(0) 推荐(0)

特征选择(四)- 分散度
摘要:度量类别可分离性的量主要有: 欧氏距离(正态分布,协方差相等,且为单位阵) 是最简单的一种描述方法。它把两个类别中心之间的欧式距离作为两个不同类别间不相似性的度量。 马氏(Mahalanobis)距离(正态分布,协方差相等) 它用来描述两个具有相同的协方差矩阵C,不同的期望值和的类别之间的不相似性, 阅读全文

posted @ 2017-03-13 16:24 会飞的蝸牛 阅读(2079) 评论(0) 推荐(0)

机器学习实践中的7种常见错误
摘要:http://ml.posthaven.com/machine-learning-done-wrong http://blog.jobbole.com/70684/ Statistical modeling is a lot like engineering. In engineering, the 阅读全文

posted @ 2017-03-13 16:13 会飞的蝸牛 阅读(1407) 评论(0) 推荐(0)

逻辑回归 vs 决策树 vs 支持向量机(I)
摘要:原文链接:http://www.edvancer.in/logistic-regression-vs-decision-trees-vs-svm-part1/ 分类问题是我们在各个行业的商业业务中遇到的主要问题之一。在本文中,我们将从众多技术中挑选出三种主要技术展开讨论,逻辑回归(Logistic  阅读全文

posted @ 2017-03-13 15:57 会飞的蝸牛 阅读(1484) 评论(0) 推荐(0)

逻辑回归 vs 决策树 vs 支持向量机(II)
摘要:原文地址: Logistic Regression vs Decision Trees vs SVM: Part II 在这篇文章,我们将讨论如何在逻辑回归、决策树和SVM之间做出最佳选择。其实 第一篇文章已经给出了很好的回答,不过在这里再补充一些。下面将继续深入讨论这个主题。事实上,这三个算法在其 阅读全文

posted @ 2017-03-13 15:52 会飞的蝸牛 阅读(1144) 评论(0) 推荐(0)

线性回归和逻辑回归
摘要:在学习完 Andrew Ng 教授的机器学习课程,这里将线性回归和逻辑回归细节之处梳理一下。 1、 为什么是逻辑回归? 都说线性回归用来做回归预测,逻辑回归用于做二分类,一个是解决回归问题,一个用于解决分类问题。但很多人问起逻辑回归和线性回归的区别,很多人会大喊一声(也可能是三声):逻辑回归就是对线 阅读全文

posted @ 2017-03-13 13:37 会飞的蝸牛 阅读(716) 评论(0) 推荐(0)

感知机、logistic回归 损失函数对比探讨
摘要:感知机、logistic回归 损失函数对比探讨 感知机 假如数据集是线性可分的,感知机学习的目标是求得一个能够将正负样本完全分开的分隔超平面 $wx+b=0$ 。其学习策略为,定义(经验)损失函数并将损失函数最小化。通常,定义损失函数的策略是:== 误分类点 到分隔超平面的总距离==。【李航,2.2 阅读全文

posted @ 2017-03-10 09:47 会飞的蝸牛 阅读(4932) 评论(0) 推荐(0)

SVM探讨
摘要:SVM探讨 [toc] SVM算法 根据处理问题的复杂度,SVM 可由简到繁分为三种: 线性可分支持向量机 :硬间隔最大化。 线性支持向量机 :数据分布近似线性可分,可通过软间隔最大化(惩罚因子,松弛变量)来线性分隔样本点。 非线性支持向量机 :通过核函数提升特征维度,做个一个非线性的变换,来将非线 阅读全文

posted @ 2017-03-10 09:43 会飞的蝸牛 阅读(961) 评论(0) 推荐(0)

支持向量机及核函数
摘要:[toc] 常见核函数 线性核 (linear kernel):$$K(x_1,x_2)=x_1\cdot x_2+c$$ 多项式核 (polynomial kernel):$$K(x_1, x_2)=(x_1\cdot x_2 +c)^d$$其中 $d\ge1$,为多项式的次数。 感知器核 (Si 阅读全文

posted @ 2017-03-10 09:40 会飞的蝸牛 阅读(1697) 评论(0) 推荐(0)

Advice for applying Machine Learning
摘要:本博文由本人整理而来: "Advice for applying Machine Learning" file:///Users/steven/百度云同步盘/百度同步云盘/Books_Papers_Documents/docs/ml_advice/ml_advice.html 由于文件在本地,如果想 阅读全文

posted @ 2017-03-03 16:41 会飞的蝸牛 阅读(290) 评论(0) 推荐(0)

[机器学习系列-广义线性模型
摘要:"机器学习系列 广义线性模型" https://mp.weixin.qq.com/s?__biz=MzA5NDQ3MDI4NA==&mid=2658611595&idx=1&sn=fe706a0852ebeb46853668a35c9f0ca1&chksm=8bcdb868bcba317e640bf 阅读全文

posted @ 2017-03-02 20:59 会飞的蝸牛 阅读(292) 评论(0) 推荐(0)

使用sklearn进行集成学习——理论
摘要:"使用sklearn进行集成学习——理论" 阅读全文

posted @ 2017-03-02 20:58 会飞的蝸牛 阅读(224) 评论(0) 推荐(0)

机器学习中的正则化问题(1)——概念
摘要:一般来说,监督学习就是最小化下面函数: $$w^ = arg\min_w \sum_iL(y_i,\;f(x_i;w)) + \lambda\Omega(w)$$ 对于第一部分——Loss函数,一般有如下几种情况: 如果是Square loss,那就是最小二乘了; 如果是Hinge Loss,那就是 阅读全文

posted @ 2017-01-22 13:40 会飞的蝸牛 阅读(1066) 评论(0) 推荐(0)

机器学习中的正则化问题(2)——理解正则化
摘要:理解正则化 [toc] 正则化的由来 有几种角度来看待正则化(Regularization),它符合 奥卡姆剃刀(Occam’s razor)原理 :在所有可能选择的模型中,能够很好地解释已知数据并且十分简单的才是最好的模型。 从贝叶斯估计的角度来看,正则化项对应于模型的先验概率。 还有个说法就是, 阅读全文

posted @ 2017-01-04 11:34 会飞的蝸牛 阅读(2792) 评论(0) 推荐(0)

导航