我的数据之路

2019年8月4日

摘要： 1.项目介绍数据集包含某年9月份欧洲用户在两天时间里发生的284807宗交易，其中包括492宗诈骗。项目通过描述性分析探索诈骗案的相关特点和模式，再通过机器学习算法创建预测模型、调参，并通过混淆矩阵等方法选择模型。 2.数据清理 2.1导入数据 2.2 数据概览查看数据总体情况、变量类型、缺失值阅读全文

posted @ 2019-08-04 11:40 我的数据之路阅读(1491) 评论(3) 推荐(1)

2019年7月29日

R语言parse函数与eval函数的字符串转命令行及执行操作

摘要： parse()函数能将字符串转换为表达式expression；eval()函数能对表达式求解输出：如果将这两个函数与apply系列函数配合，将起到循环的效果。阅读全文

posted @ 2019-07-29 15:31 我的数据之路阅读(4718) 评论(0) 推荐(0)

2019年7月28日

用R语言提取数据框中日期对应年份（列表转矩阵）

摘要：用R语言提取数据框中日期对应年份（列表转矩阵）在数据处理中常会遇到要对数据框中的时间做聚类处理，如从"%m/%d/%Y"中提取年份。对应操作为：拆分成列表——列表转矩阵——利用索引从矩阵中提取第一列—— 其他办法供参考：阅读全文

posted @ 2019-07-28 10:50 我的数据之路阅读(5202) 评论(0) 推荐(0)

2019年7月24日

R语言模型选择之精度准则与最大值法问题

摘要：在模型选择中我们一般用caret包train函数建立模型，并对模型进行评判方法1：输出 mtry Accuracy Kappa 2 0.9276465 0.8552977 16 0.9314521 0.8628921 30 0.9276627 0.8553120 Accuracy was use 阅读全文

posted @ 2019-07-24 01:31 我的数据之路阅读(1291) 评论(0) 推荐(0)

2019年7月23日

对数据集做标准化处理的几种方法——基于R语言

摘要：数据集——iris（R语言自带鸢尾花包）一、scale函数 scale函数默认的是对制定数据做均值为0，标准差为1的标准化。它的两个参数center和scale： 1）center和scale默认为真,即T 2）center为真表示数据中心化 3）scale为真表示数据标准化中心化：所谓数据的中阅读全文

posted @ 2019-07-23 12:09 我的数据之路阅读(21165) 评论(0) 推荐(0)

2019年7月22日

可视化缺失值的办法——R语言

摘要：在数据分析中，对缺失值的处理是很关键一步，一般用summary()函数但通过R语言的VIM包的aggr函数可以做缺失值的图形化展示：阅读全文

posted @ 2019-07-22 11:20 我的数据之路阅读(2310) 评论(0) 推荐(0)

模型验证方法——R语言

摘要：在数据分析中经常会对不同的模型做判断一、混淆矩阵法作用：一种比较简单的模型验证方法，可算出不同模型的预测精度将模型的预测值与实际值组合成一个矩阵，正例一般是我们要预测的目标。真正例就是预测为正例且实际也是正例（预测正确）；假反例是实际是正例但模型错误预测成反例（即预测错误）；假正例是预测是模型阅读全文

posted @ 2019-07-22 00:51 我的数据之路阅读(4602) 评论(0) 推荐(0)

2019年7月16日

R语言绘图——条形图可以将堆积条形图与百分比堆积条形图配合使用

摘要：在使用堆积条形图时候，新增一个百分比堆积条形图，可以加深读者印象。封装一个function函数后只需要在调用的数据上改一下pos=‘fill’的代码即可。比较方便。案例：阅读全文

posted @ 2019-07-16 13:36 我的数据之路阅读(7013) 评论(0) 推荐(0)

R语言multiplot函数绘制多张图像

摘要：必备数据包“Rmisc” 先准备好需要绘入的图像，以比如p1、p2表示， multiplot(p1, p2) 如果插入图像多，p1、p2、p3、p4，则需要规定图像排列顺序。 multiplot(p1, p2, p3, p4, cols=2) 阅读全文

posted @ 2019-07-16 09:51 我的数据之路阅读(5021) 评论(0) 推荐(0)

R语言抽样的问题

摘要：基本抽样函数sample sample(x,size,replace=F/T) x是数据集， size规定了从对象中抽出多少个数 replace 为F时候，表示每次抽取后的数就不能在下一次被抽取；T表示抽取过的数可以继续拿来被抽取。不平衡数据的问题以某两类数据为目标做抽样，其中一类样本数量特别阅读全文

posted @ 2019-07-16 01:38 我的数据之路阅读(1217) 评论(0) 推荐(0)

调参啊调参

公告