随笔分类 -  Machine Learning

摘要:sklearn监督学习的各个模块 neighbors近邻算法,svm支持向量机,kernal_ridge核岭回归,discriminant_analysis判别分析,linear_model广义线性模型 ensemble集成方法,tree决策树,native_bayes朴素贝叶斯,cross_dec 阅读全文
posted @ 2017-06-09 21:06 nolonely 阅读(1413) 评论(0) 推荐(0) 编辑
摘要:一、pipeline的用法 pipeline可以用于把多个estimators级联成一个estimator,这么 做的原因是考虑了数据处理过程中一系列前后相继的固定流程,比如feature selection->normalization->classification pipeline提供了两种服 阅读全文
posted @ 2017-06-09 09:31 nolonely 阅读(7429) 评论(0) 推荐(1) 编辑
摘要:最近在学习论文的时候发现了在science上发表的关于新型的基于密度的聚类算法 Kmean算法有很多不足的地方,比如k值的确定,初始结点选择,而且还不能检测费球面类别的数据分布,对于第二个问题,提出了Kmean++,而其他不足还没有解决,dbscan虽然可以对任意形状分布的进行聚类,但是必须指定一个 阅读全文
posted @ 2017-06-08 21:21 nolonely 阅读(9776) 评论(0) 推荐(6) 编辑
摘要:转自 http://blog.csdn.net/u014568921/article/details/49383379 另外一个很容易理解的文章 :http://www.jianshu.com/p/005a4e6ac775 更多参考如下 机器学习(四)— 从gbdt到xgboost 机器学习常见算法 阅读全文
posted @ 2017-06-08 14:47 nolonely 阅读(1143) 评论(0) 推荐(0) 编辑
摘要:学习了机器学习这么久,第一次真正用机器学习中的方法解决一个实际问题,一步步探索,虽然最后结果不是很准确,仅仅达到了0.78647,但是真是收获很多,为了防止以后我的记忆虫上脑,我决定还是记录下来好了。 1,看到样本是,查看样本的分布和统计情况 通常遇到缺值的情况,我们会有几种常见的处理方式 如果缺值 阅读全文
posted @ 2017-06-07 10:26 nolonely 阅读(4815) 评论(0) 推荐(0) 编辑
摘要:出处: http://blog.csdn.net/longxinchen_ml/article/details/50493845, http://blog.csdn.net/han_xiaoyang/article/details/50503115 1. 剧情一:挑螃蟹的秘密 李雷与韩梅梅的关系发展 阅读全文
posted @ 2017-06-01 10:29 nolonely 阅读(334) 评论(0) 推荐(0) 编辑
摘要:转自http://blog.csdn.net/han_xiaoyang/article/details/50481967 1. 引言 再过一个月就是春节,相信有很多码农就要准备欢天喜地地回家过(xiang)年(qin)了。我们今天也打算讲一个相亲的故事。 讲机器学习为什么要讲相亲?被讨论群里的小伙伴 阅读全文
posted @ 2017-06-01 10:23 nolonely 阅读(434) 评论(0) 推荐(0) 编辑
摘要:转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注,但我们真正的未来却在于能够使电脑变得更聪明,更人性化的技术,机器学习。 – 埃里克 施密特(谷歌首席执行官) 当计算从大型计算机转移至个人 阅读全文
posted @ 2017-05-31 20:10 nolonely 阅读(535) 评论(0) 推荐(0) 编辑
摘要:安装SK-Learn需要依赖的Python安装包有: Python (>= 2.6), NumPy (>= 1.3), SciPy (>= 0.7), 下载python的各种包的地址:http://www.lfd.uci.edu/~gohlke/pythonlibs/ 在下载各种包的时候要注意版本的 阅读全文
posted @ 2017-05-24 09:22 nolonely 阅读(6822) 评论(0) 推荐(0) 编辑
摘要:决策树的优势就在于数据形式非常容易理解,而kNN的最大缺点就是无法给出数据的内在含义。 1:简单概念描述 决策树的类型有很多,有CART、ID3和C4.5等,其中CART是基于基尼不纯度(Gini)的,这里不做详解,而ID3和C4.5都是基于信息熵的,它们两个得到的结果都是一样的,本次定义主要针对I 阅读全文
posted @ 2017-05-23 20:08 nolonely 阅读(350) 评论(0) 推荐(0) 编辑
摘要:KNN算法很简单,大致的工作原理是:给定训练数据样本和标签,对于某测试的一个样本数据,选择距离其最近的k个训练样本,这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数,这里的距离一般是欧式距离。 对于上边的问题,①计算测试样本与训练样本的距离,②选择与其最 阅读全文
posted @ 2017-05-22 21:06 nolonely 阅读(395) 评论(0) 推荐(0) 编辑
摘要:马尔科夫过程 马尔科夫过程可以看做是一个自动机,以一定的概率在各个状态之间跳转。 考虑一个系统,在每个时刻都可能处于N个状态中的一个,N个状态集合是 {S1,S2,S3,...SN}。我们现在用q1,q2,q3,…qn来表示系统在t=1,2,3,…n时刻下的状态。在t=1时,系统所在的状态q取决于一 阅读全文
posted @ 2017-05-13 16:07 nolonely 阅读(225) 评论(0) 推荐(0) 编辑
摘要:转自 http://blog.csdn.net/linkin1005/article/details/39054023 同朴素贝叶斯一样,高斯判别分析(Gaussian discriminant analysismodel, GDA)也是一种生成学习算法,在该模型中,我们假设y给定的情况下,x服从混 阅读全文
posted @ 2017-05-10 20:36 nolonely 阅读(1532) 评论(0) 推荐(0) 编辑
摘要:转自 国内外网站如果你想搜索比较新颖的机器学习资料或是文章,可以到以下网站中搜索,里面不仅包括了机器学习的内容,还有许多其它相关领域内容,如数据科学和云计算等。InfoWord:http://www.infoworld.com/reviews/Kdnuggets:http://www.kdnugge 阅读全文
posted @ 2017-04-11 14:42 nolonely 阅读(235) 评论(0) 推荐(0) 编辑
摘要:他通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。 adaboost提高那些被前一轮弱分类器错误分类样本的权重,而降低那些被正确分类样本的权重,这样使得,那些没有得到正确分类的数据,由于其权重的加大而受到后一轮的弱分类器的更大的关注。在组合阶段,加大分类误差率小的 阅读全文
posted @ 2017-04-09 21:42 nolonely 阅读(456) 评论(0) 推荐(0) 编辑
摘要:过拟合产生的原因: ①假设过于复杂②噪音数据③数据规模太小 解决过拟合的方案:数据清洗(将错误的lable纠正或者删除错误的数据),伪造更多的数据,正则化,验正 正则化--范数:转自http://blog.csdn.net/zouxy09/article/details/24971995 监督机器学 阅读全文
posted @ 2017-04-07 15:38 nolonely 阅读(946) 评论(1) 推荐(0) 编辑
摘要:常见的机器学习模型:感知机,线性回归,逻辑回归,支持向量机,决策树,随机森林,GBDT,XGBoost,贝叶斯,KNN,K-means等; 常见的机器学习理论:过拟合问题,交叉验证问题,模型选择问题,模型融合问题等; K近邻:算法采用测量不同特征值之间的距离的方法进行分类。 优点: 1.简单好用,容 阅读全文
posted @ 2017-04-07 15:17 nolonely 阅读(8355) 评论(0) 推荐(0) 编辑
摘要:对于一般的回归问题,给定训练样本D={(x1,y1),(x2,y2),...,(xn,yn)},yi€R,我们希望学习到一个f(x)使得,其与y尽可能的接近,w,b是待确定的参数。在这个模型中,只有当发f(x)与y完全相同时,损失才为零,而支持向量回归假设我们能容忍的f(x)与之间最多有ε的偏差,当 阅读全文
posted @ 2017-04-07 11:25 nolonely 阅读(10251) 评论(0) 推荐(0) 编辑
摘要:首先在贝叶斯分类器之前先说贝叶斯理论 (1)贝叶斯分类器 假设有N种可能的分类标记,即为y={c1,c2,...,cN} λij 是将一个真实的标记cj的样本误分类为ci发损失,后验概率P(ci|x)可获得样本x分类为ci的期望,则在样本x上的“条件风险”是 我们需要最小化这个风险,也就是在每个样本 阅读全文
posted @ 2017-04-05 19:32 nolonely 阅读(1649) 评论(0) 推荐(0) 编辑
摘要:转自 http://blog.csdn.net/Androidlushangderen/article/details/43311943 参考资料:http://blog.csdn.net/hguisu/article/details/7996185更多数据挖掘算法:https://github.c 阅读全文
posted @ 2017-04-04 20:28 nolonely 阅读(11783) 评论(2) 推荐(2) 编辑