会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
调参啊调参
博客园
首页
新随笔
联系
订阅
管理
2019年8月4日
信用卡诈骗分析
摘要: 1.项目介绍 数据集包含某年9月份欧洲用户在两天时间里发生的284807宗交易,其中包括492宗诈骗。项目通过描述性分析探索诈骗案的相关特点和模式,再通过机器学习算法创建预测模型、调参,并通过混淆矩阵等方法选择模型。 2.数据清理 2.1导入数据 2.2 数据概览 查看数据总体情况、变量类型、缺失值
阅读全文
posted @ 2019-08-04 11:40 我的数据之路
阅读(1459)
评论(3)
推荐(1)
2019年7月29日
R语言parse函数与eval函数的字符串转命令行及执行操作
摘要: parse()函数能将字符串转换为表达式expression;eval()函数能对表达式求解 输出: 如果将这两个函数与apply系列函数配合,将起到循环的效果。
阅读全文
posted @ 2019-07-29 15:31 我的数据之路
阅读(4697)
评论(0)
推荐(0)
2019年7月28日
用R语言提取数据框中日期对应年份(列表转矩阵)
摘要: 用R语言提取数据框中日期对应年份(列表转矩阵) 在数据处理中常会遇到要对数据框中的时间做聚类处理,如从"%m/%d/%Y"中提取年份。 对应操作为:拆分成列表——列表转矩阵——利用索引从矩阵中提取第一列—— 其他办法供参考:
阅读全文
posted @ 2019-07-28 10:50 我的数据之路
阅读(5159)
评论(0)
推荐(0)
2019年7月24日
R语言模型选择之精度准则与最大值法问题
摘要: 在模型选择中我们一般用caret包train函数建立模型,并对模型进行评判 方法1: 输出 mtry Accuracy Kappa 2 0.9276465 0.8552977 16 0.9314521 0.8628921 30 0.9276627 0.8553120 Accuracy was use
阅读全文
posted @ 2019-07-24 01:31 我的数据之路
阅读(1255)
评论(0)
推荐(0)
2019年7月23日
对数据集做标准化处理的几种方法——基于R语言
摘要: 数据集——iris(R语言自带鸢尾花包) 一、scale函数 scale函数默认的是对制定数据做均值为0,标准差为1的标准化。它的两个参数center和scale: 1)center和scale默认为真,即T 2)center为真表示数据中心化 3)scale为真表示数据标准化 中心化:所谓数据的中
阅读全文
posted @ 2019-07-23 12:09 我的数据之路
阅读(20977)
评论(0)
推荐(0)
2019年7月22日
可视化缺失值的办法——R语言
摘要: 在数据分析中,对缺失值的处理是很关键一步,一般用summary()函数 但通过R语言的VIM包的aggr函数可以做缺失值的图形化展示:
阅读全文
posted @ 2019-07-22 11:20 我的数据之路
阅读(2267)
评论(0)
推荐(0)
模型验证方法——R语言
摘要: 在数据分析中经常会对不同的模型做判断 一、混淆矩阵法 作用:一种比较简单的模型验证方法,可算出不同模型的预测精度 将模型的预测值与实际值组合成一个矩阵,正例一般是我们要预测的目标。真正例就是预测为正例且实际也是正例(预测正确);假反例是实际是正例但模型错误预测成反例(即预测错误);假正例是预测是模型
阅读全文
posted @ 2019-07-22 00:51 我的数据之路
阅读(4493)
评论(0)
推荐(0)
2019年7月16日
R语言 绘图——条形图可以将堆积条形图与百分比堆积条形图配合使用
摘要: 在使用堆积条形图时候,新增一个百分比堆积条形图,可以加深读者印象。 封装一个function函数后只需要在调用的数据上改一下pos=‘fill’的代码即可。比较方便。 案例:
阅读全文
posted @ 2019-07-16 13:36 我的数据之路
阅读(6971)
评论(0)
推荐(0)
R语言multiplot函数绘制多张图像
摘要: 必备数据包“Rmisc” 先准备好需要绘入的图像,以比如p1、p2表示, multiplot(p1, p2) 如果插入图像多,p1、p2、p3、p4,则需要规定图像排列顺序。 multiplot(p1, p2, p3, p4, cols=2)
阅读全文
posted @ 2019-07-16 09:51 我的数据之路
阅读(4994)
评论(0)
推荐(0)
R语言抽样的问题
摘要: 基本抽样函数sample sample(x,size,replace=F/T) x是数据集, size规定了从对象中抽出多少个数 replace 为F时候,表示每次抽取后的数就不能在下一次被抽取;T表示抽取过的数可以继续拿来被抽取。 不平衡数据的问题 以某两类数据为目标做抽样,其中一类样本数量特别
阅读全文
posted @ 2019-07-16 01:38 我的数据之路
阅读(1200)
评论(0)
推荐(0)
下一页
公告