Machine Learning - 随笔分类(第2页) - nolonely

sklearn算法库的顶层设计

摘要：sklearn监督学习的各个模块 neighbors近邻算法,svm支持向量机,kernal_ridge核岭回归,discriminant_analysis判别分析,linear_model广义线性模型 ensemble集成方法,tree决策树,native_bayes朴素贝叶斯,cross_dec 阅读全文

posted @ 2017-06-09 21:06 nolonely 阅读(1413) 评论(0) 推荐(0) 编辑

sklearn 中的 Pipeline 机制和FeatureUnion

摘要：一、pipeline的用法 pipeline可以用于把多个estimators级联成一个estimator，这么做的原因是考虑了数据处理过程中一系列前后相继的固定流程，比如feature selection->normalization->classification pipeline提供了两种服阅读全文

posted @ 2017-06-09 09:31 nolonely 阅读(7429) 评论(0) 推荐(1) 编辑

一种新型聚类算法(Clustering by fast search and find of density peaksd)

摘要：最近在学习论文的时候发现了在science上发表的关于新型的基于密度的聚类算法 Kmean算法有很多不足的地方，比如k值的确定，初始结点选择，而且还不能检测费球面类别的数据分布，对于第二个问题，提出了Kmean++，而其他不足还没有解决，dbscan虽然可以对任意形状分布的进行聚类，但是必须指定一个阅读全文

posted @ 2017-06-08 21:21 nolonely 阅读(9776) 评论(0) 推荐(6) 编辑

机器学习算法--GBDT

摘要：转自 http://blog.csdn.net/u014568921/article/details/49383379 另外一个很容易理解的文章：http://www.jianshu.com/p/005a4e6ac775 更多参考如下机器学习（四）— 从gbdt到xgboost 机器学习常见算法阅读全文

posted @ 2017-06-08 14:47 nolonely 阅读(1143) 评论(0) 推荐(0) 编辑

kaggle 泰坦尼克号问题总结

摘要：学习了机器学习这么久，第一次真正用机器学习中的方法解决一个实际问题，一步步探索，虽然最后结果不是很准确，仅仅达到了0.78647，但是真是收获很多，为了防止以后我的记忆虫上脑，我决定还是记录下来好了。 1，看到样本是，查看样本的分布和统计情况通常遇到缺值的情况，我们会有几种常见的处理方式如果缺值阅读全文

posted @ 2017-06-07 10:26 nolonely 阅读(4815) 评论(0) 推荐(0) 编辑

<转>特征工程（二）

摘要：出处： http://blog.csdn.net/longxinchen_ml/article/details/50493845， http://blog.csdn.net/han_xiaoyang/article/details/50503115 1. 剧情一：挑螃蟹的秘密李雷与韩梅梅的关系发展阅读全文

posted @ 2017-06-01 10:29 nolonely 阅读(334) 评论(0) 推荐(0) 编辑

<转>特征工程（一）

摘要：转自http://blog.csdn.net/han_xiaoyang/article/details/50481967 1. 引言再过一个月就是春节，相信有很多码农就要准备欢天喜地地回家过（xiang）年(qin)了。我们今天也打算讲一个相亲的故事。讲机器学习为什么要讲相亲？被讨论群里的小伙伴阅读全文

posted @ 2017-06-01 10:23 nolonely 阅读(434) 评论(0) 推荐(0) 编辑

<转>机器学习系列(9)_机器学习算法一览（附Python和R代码）

摘要：转自http://blog.csdn.net/han_xiaoyang/article/details/51191386 – 谷歌的无人车和机器人得到了很多关注，但我们真正的未来却在于能够使电脑变得更聪明，更人性化的技术，机器学习。 – 埃里克施密特（谷歌首席执行官）当计算从大型计算机转移至个人阅读全文

posted @ 2017-05-31 20:10 nolonely 阅读(535) 评论(0) 推荐(0) 编辑

python下安装Scikit-learn

摘要：安装SK-Learn需要依赖的Python安装包有： Python (>= 2.6), NumPy (>= 1.3), SciPy (>= 0.7), 下载python的各种包的地址：http://www.lfd.uci.edu/~gohlke/pythonlibs/ 在下载各种包的时候要注意版本的阅读全文

posted @ 2017-05-24 09:22 nolonely 阅读(6822) 评论(0) 推荐(0) 编辑

机器学习实战-决策树

摘要：决策树的优势就在于数据形式非常容易理解，而kNN的最大缺点就是无法给出数据的内在含义。 1：简单概念描述决策树的类型有很多，有CART、ID3和C4.5等，其中CART是基于基尼不纯度(Gini)的，这里不做详解，而ID3和C4.5都是基于信息熵的，它们两个得到的结果都是一样的，本次定义主要针对I 阅读全文

posted @ 2017-05-23 20:08 nolonely 阅读(350) 评论(0) 推荐(0) 编辑

机器学习实战-KNN

摘要：KNN算法很简单，大致的工作原理是：给定训练数据样本和标签，对于某测试的一个样本数据，选择距离其最近的k个训练样本，这k个训练样本中所属类别最多的类即为该测试样本的预测标签。简称kNN。通常k是不大于20的整数，这里的距离一般是欧式距离。对于上边的问题，①计算测试样本与训练样本的距离，②选择与其最阅读全文

posted @ 2017-05-22 21:06 nolonely 阅读(395) 评论(0) 推荐(0) 编辑

隐马尔科夫模型

摘要：马尔科夫过程马尔科夫过程可以看做是一个自动机，以一定的概率在各个状态之间跳转。考虑一个系统，在每个时刻都可能处于N个状态中的一个，N个状态集合是 {S1,S2,S3,...SN}。我们现在用q1,q2,q3,…qn来表示系统在t=1,2,3,…n时刻下的状态。在t=1时，系统所在的状态q取决于一阅读全文

posted @ 2017-05-13 16:07 nolonely 阅读(225) 评论(0) 推荐(0) 编辑

斯坦福大学机器学习——高斯判别分析

摘要：转自 http://blog.csdn.net/linkin1005/article/details/39054023 同朴素贝叶斯一样，高斯判别分析（Gaussian discriminant analysismodel, GDA）也是一种生成学习算法，在该模型中，我们假设y给定的情况下，x服从混阅读全文

posted @ 2017-05-10 20:36 nolonely 阅读(1532) 评论(0) 推荐(0) 编辑

<转>ML 相关算法参考

摘要：转自国内外网站如果你想搜索比较新颖的机器学习资料或是文章，可以到以下网站中搜索，里面不仅包括了机器学习的内容，还有许多其它相关领域内容，如数据科学和云计算等。InfoWord：http://www.infoworld.com/reviews/Kdnuggets：http://www.kdnugge 阅读全文

posted @ 2017-04-11 14:42 nolonely 阅读(235) 评论(0) 推荐(0) 编辑

模型提升方法adaBoost

摘要：他通过改变训练样本的权重，学习多个分类器，并将这些分类器进行线性组合，提高分类的性能。 adaboost提高那些被前一轮弱分类器错误分类样本的权重，而降低那些被正确分类样本的权重，这样使得，那些没有得到正确分类的数据，由于其权重的加大而受到后一轮的弱分类器的更大的关注。在组合阶段，加大分类误差率小的阅读全文

posted @ 2017-04-09 21:42 nolonely 阅读(456) 评论(0) 推荐(0) 编辑

机器学习过拟合---范数

摘要：过拟合产生的原因： ①假设过于复杂②噪音数据③数据规模太小解决过拟合的方案：数据清洗（将错误的lable纠正或者删除错误的数据），伪造更多的数据，正则化，验正正则化--范数:转自http://blog.csdn.net/zouxy09/article/details/24971995 监督机器学阅读全文

posted @ 2017-04-07 15:38 nolonely 阅读(946) 评论(1) 推荐(0) 编辑

机器学习”小憩“——总结应用场景

摘要：常见的机器学习模型：感知机，线性回归，逻辑回归，支持向量机，决策树，随机森林，GBDT，XGBoost，贝叶斯，KNN，K-means等；常见的机器学习理论：过拟合问题，交叉验证问题，模型选择问题，模型融合问题等； K近邻：算法采用测量不同特征值之间的距离的方法进行分类。优点： 1.简单好用，容阅读全文

posted @ 2017-04-07 15:17 nolonely 阅读(8355) 评论(0) 推荐(0) 编辑

支持向量回归

摘要：对于一般的回归问题，给定训练样本D={(x1,y1),(x2,y2),...,(xn,yn)},yi€R,我们希望学习到一个f（x）使得，其与y尽可能的接近，w，b是待确定的参数。在这个模型中，只有当发f(x)与y完全相同时，损失才为零，而支持向量回归假设我们能容忍的f(x)与之间最多有ε的偏差，当阅读全文

posted @ 2017-04-07 11:25 nolonely 阅读(10251) 评论(0) 推荐(0) 编辑

贝叶斯分类器

摘要：首先在贝叶斯分类器之前先说贝叶斯理论 (1)贝叶斯分类器假设有N种可能的分类标记，即为y={c1,c2,...,cN} λij 是将一个真实的标记cj的样本误分类为ci发损失，后验概率P(ci|x)可获得样本x分类为ci的期望，则在样本x上的“条件风险”是我们需要最小化这个风险，也就是在每个样本阅读全文

posted @ 2017-04-05 19:32 nolonely 阅读(1649) 评论(0) 推荐(0) 编辑

链接分析算法之：HITS算法

摘要：转自 http://blog.csdn.net/Androidlushangderen/article/details/43311943 参考资料：http://blog.csdn.net/hguisu/article/details/7996185更多数据挖掘算法：https://github.c 阅读全文

posted @ 2017-04-04 20:28 nolonely 阅读(11783) 评论(2) 推荐(2) 编辑

nolonely

很多时候不是我们做不好，而是没有竭尽全力......

随笔分类 - Machine Learning