刘建平Pinard

2016年11月24日

摘要：支持向量机原理(一) 线性支持向量机支持向量机原理(二) 线性支持向量机的软间隔最大化模型支持向量机原理(三)线性不可分支持向量机与核函数支持向量机原理(四)SMO算法原理支持向量机原理(五)线性支持回归支持向量机(Support Vecor Machine,以下简称SVM)虽然诞生只有短阅读全文

posted @ 2016-11-24 21:33 刘建平Pinard 阅读(118679) 评论(124) 推荐(47)

2016年11月23日

最大熵模型原理小结

摘要：最大熵模型(maximum entropy model， MaxEnt)也是很典型的分类算法了，它和逻辑回归类似，都是属于对数线性分类模型。在损失函数优化的过程中，使用了和支持向量机类似的凸优化技术。而对熵的使用，让我们想起了决策树算法中的ID3和C4.5算法。理解了最大熵模型，对逻辑回归，支持向量阅读全文

posted @ 2016-11-23 20:33 刘建平Pinard 阅读(52922) 评论(100) 推荐(15)

2016年11月17日

scikit-learn 朴素贝叶斯类库使用小结

摘要：之前在朴素贝叶斯算法原理小结这篇文章中，对朴素贝叶斯分类算法的原理做了一个总结。这里我们就从实战的角度来看朴素贝叶斯类库。重点讲述scikit-learn 朴素贝叶斯类库的使用要点和参数选择。 1. scikit-learn 朴素贝叶斯类库概述朴素贝叶斯是一类比较简单的算法，scikit-lear 阅读全文

posted @ 2016-11-17 17:03 刘建平Pinard 阅读(57709) 评论(42) 推荐(22)

2016年11月16日

朴素贝叶斯算法原理小结

摘要：在所有的机器学习分类算法中，朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法，比如决策树,KNN,逻辑回归，支持向量机等，他们都是判别方法，也就是直接学习出特征输出Y和特征X之间的关系，要么是决策函数$Y=f(X)$,要么是条件分布$P(Y|X)$。但是朴素贝叶斯却是生成方法，也就是直阅读全文

posted @ 2016-11-16 17:25 刘建平Pinard 阅读(131848) 评论(130) 推荐(49)

2016年11月15日

scikit-learn K近邻法类库使用小结

摘要：在K近邻法(KNN)原理小结这篇文章，我们讨论了KNN的原理和优缺点，这里我们就从实践出发，对scikit-learn 中KNN相关的类库使用做一个小结。主要关注于类库调参时的一个经验总结。 1. scikit-learn 中KNN相关的类库概述在scikit-learn 中，与近邻法这一大类相关阅读全文

posted @ 2016-11-15 16:29 刘建平Pinard 阅读(39138) 评论(13) 推荐(10)

2016年11月14日

K近邻法(KNN)原理小结

摘要： K近邻法(k-nearest neighbors,KNN)是一种很基本的机器学习方法了，在我们平常的生活中也会不自主的应用。比如，我们判断一个人的人品，只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类，也可以做回归，这点和决策树算法相同。 KNN 阅读全文

posted @ 2016-11-14 20:13 刘建平Pinard 阅读(88164) 评论(87) 推荐(28)

2016年11月12日

scikit-learn决策树算法类库使用小结

摘要：之前对决策树的算法原理做了总结，包括决策树算法原理(上)和决策树算法原理(下)。今天就从实践的角度来介绍决策树算法，主要是讲解使用scikit-learn来跑决策树算法，结果的可视化以及一些参数调参的关键点。 1. scikit-learn决策树算法类库介绍 scikit-learn决策树算法类库内阅读全文

posted @ 2016-11-12 14:28 刘建平Pinard 阅读(149657) 评论(137) 推荐(31)

2016年11月11日

决策树算法原理(下)

摘要：在决策树算法原理(上)这篇里，我们讲到了决策树里ID3算法，和ID3算法的改进版C4.5算法。对于C4.5算法，我们也提到了它的不足，比如模型是用较为复杂的熵来度量，使用了相对较为复杂的多叉树，只能处理分类不能处理回归等。对于这些问题， CART算法大部分做了改进。CART算法也就是我们下面的重点了阅读全文

posted @ 2016-11-11 16:10 刘建平Pinard 阅读(130950) 评论(342) 推荐(52)

2016年11月10日

决策树算法原理(上)

摘要：决策树算法在机器学习中算是很经典的一个算法系列了。它既可以作为分类算法，也可以作为回归算法，同时也特别适合集成学习比如随机森林。本文就对决策树算法原理做一个总结，上篇对ID3， C4.5的算法思想做了总结，下篇重点对CART算法做一个详细的介绍。选择CART做重点介绍的原因是scikit-learn 阅读全文

posted @ 2016-11-10 15:54 刘建平Pinard 阅读(136877) 评论(144) 推荐(50)

2016年11月9日

机器学习算法的随机数据生成

摘要：在学习机器学习算法的过程中，我们经常需要数据来验证算法，调试参数。但是找到一组十分合适某种特定算法类型的数据样本却不那么容易。还好numpy, scikit-learn都提供了随机数据生成的功能，我们可以自己生成适合某一种模型的数据，用随机数据来做清洗，归一化，转换，然后选择模型与算法做拟合和预测。阅读全文

posted @ 2016-11-09 22:03 刘建平Pinard 阅读(35648) 评论(11) 推荐(20)

十五年码农，对数学统计学，数据挖掘，机器学习，大数据平台，大数据平台应用开发，大数据可视化感兴趣。

公告