12 2016 档案

摘要:分类模型是数据挖掘中应用非常广泛的算法之一,常用的分类算法有Logistic模型、决策树、随机森林、神经网络、Boosting等。针对同一个数据集,可以有这么多的算法进行分析,那如何评估什么样的模型比较合理呢?本文就讲讲常用的模型验证武器,主要包括混淆矩阵、ROC曲线、提升度、增益法和KS统计量。 阅读全文
posted @ 2016-12-20 20:09 payton数据之旅 阅读(714) 评论(0) 推荐(0)
摘要:我们有一期的文章讲述了如何使用caret包进行数据的预处理,其中内容包括哑变量的创建、近零方差变了的筛选、数据标准化、缺失值处理、数据分割等。可以在教你使用caret包(一)--数据预处理获取更详细的内容介绍。下面我们接着讲讲如何使用caret包实现特征选择的任务。 特征选择的实质就是在已有的变量基 阅读全文
posted @ 2016-12-20 20:07 payton数据之旅 阅读(1102) 评论(0) 推荐(0)
摘要:原文地址:Complete Guide to Parameter Tuning in XGBoost (with codes in Python) 译注:文内提供的代码和运行结果有一定差异,可以从这里下载完整代码对照参考。另外,我自己跟着教程做的时候,发现我的库无法解析字符串类型的特征,所以只用其中 阅读全文
posted @ 2016-12-12 20:12 payton数据之旅 阅读(782) 评论(0) 推荐(0)