摘要: 1.项目介绍 数据集包含某年9月份欧洲用户在两天时间里发生的284807宗交易,其中包括492宗诈骗。项目通过描述性分析探索诈骗案的相关特点和模式,再通过机器学习算法创建预测模型、调参,并通过混淆矩阵等方法选择模型。 2.数据清理 2.1导入数据 2.2 数据概览 查看数据总体情况、变量类型、缺失值 阅读全文
posted @ 2019-08-04 11:40 我的数据之路 阅读(1372) 评论(3) 推荐(1) 编辑
摘要: parse()函数能将字符串转换为表达式expression;eval()函数能对表达式求解 输出: 如果将这两个函数与apply系列函数配合,将起到循环的效果。 阅读全文
posted @ 2019-07-29 15:31 我的数据之路 阅读(4525) 评论(0) 推荐(0) 编辑
摘要: 用R语言提取数据框中日期对应年份(列表转矩阵) 在数据处理中常会遇到要对数据框中的时间做聚类处理,如从"%m/%d/%Y"中提取年份。 对应操作为:拆分成列表——列表转矩阵——利用索引从矩阵中提取第一列—— 其他办法供参考: 阅读全文
posted @ 2019-07-28 10:50 我的数据之路 阅读(4997) 评论(0) 推荐(0) 编辑
摘要: 在模型选择中我们一般用caret包train函数建立模型,并对模型进行评判 方法1: 输出 mtry Accuracy Kappa 2 0.9276465 0.8552977 16 0.9314521 0.8628921 30 0.9276627 0.8553120 Accuracy was use 阅读全文
posted @ 2019-07-24 01:31 我的数据之路 阅读(1190) 评论(0) 推荐(0) 编辑
摘要: 数据集——iris(R语言自带鸢尾花包) 一、scale函数 scale函数默认的是对制定数据做均值为0,标准差为1的标准化。它的两个参数center和scale: 1)center和scale默认为真,即T 2)center为真表示数据中心化 3)scale为真表示数据标准化 中心化:所谓数据的中 阅读全文
posted @ 2019-07-23 12:09 我的数据之路 阅读(19597) 评论(0) 推荐(0) 编辑
摘要: 在数据分析中,对缺失值的处理是很关键一步,一般用summary()函数 但通过R语言的VIM包的aggr函数可以做缺失值的图形化展示: 阅读全文
posted @ 2019-07-22 11:20 我的数据之路 阅读(2088) 评论(0) 推荐(0) 编辑
摘要: 在数据分析中经常会对不同的模型做判断 一、混淆矩阵法 作用:一种比较简单的模型验证方法,可算出不同模型的预测精度 将模型的预测值与实际值组合成一个矩阵,正例一般是我们要预测的目标。真正例就是预测为正例且实际也是正例(预测正确);假反例是实际是正例但模型错误预测成反例(即预测错误);假正例是预测是模型 阅读全文
posted @ 2019-07-22 00:51 我的数据之路 阅读(4213) 评论(0) 推荐(0) 编辑
摘要: 在使用堆积条形图时候,新增一个百分比堆积条形图,可以加深读者印象。 封装一个function函数后只需要在调用的数据上改一下pos=‘fill’的代码即可。比较方便。 案例: 阅读全文
posted @ 2019-07-16 13:36 我的数据之路 阅读(6711) 评论(0) 推荐(0) 编辑
摘要: 必备数据包“Rmisc” 先准备好需要绘入的图像,以比如p1、p2表示, multiplot(p1, p2) 如果插入图像多,p1、p2、p3、p4,则需要规定图像排列顺序。 multiplot(p1, p2, p3, p4, cols=2) 阅读全文
posted @ 2019-07-16 09:51 我的数据之路 阅读(4786) 评论(0) 推荐(0) 编辑
摘要: 基本抽样函数sample sample(x,size,replace=F/T) x是数据集, size规定了从对象中抽出多少个数 replace 为F时候,表示每次​抽取后的数就不能在下一次被抽取;T表示抽取过的数可以继续拿来被抽取。 不平衡数据的问题 以某两类数据为目标做抽样,其中一类样本数量特别 阅读全文
posted @ 2019-07-16 01:38 我的数据之路 阅读(1152) 评论(0) 推荐(0) 编辑