07 2019 档案
摘要:parse()函数能将字符串转换为表达式expression;eval()函数能对表达式求解 输出: 如果将这两个函数与apply系列函数配合,将起到循环的效果。
阅读全文
摘要:用R语言提取数据框中日期对应年份(列表转矩阵) 在数据处理中常会遇到要对数据框中的时间做聚类处理,如从"%m/%d/%Y"中提取年份。 对应操作为:拆分成列表——列表转矩阵——利用索引从矩阵中提取第一列—— 其他办法供参考:
阅读全文
摘要:在模型选择中我们一般用caret包train函数建立模型,并对模型进行评判 方法1: 输出 mtry Accuracy Kappa 2 0.9276465 0.8552977 16 0.9314521 0.8628921 30 0.9276627 0.8553120 Accuracy was use
阅读全文
摘要:数据集——iris(R语言自带鸢尾花包) 一、scale函数 scale函数默认的是对制定数据做均值为0,标准差为1的标准化。它的两个参数center和scale: 1)center和scale默认为真,即T 2)center为真表示数据中心化 3)scale为真表示数据标准化 中心化:所谓数据的中
阅读全文
摘要:在数据分析中,对缺失值的处理是很关键一步,一般用summary()函数 但通过R语言的VIM包的aggr函数可以做缺失值的图形化展示:
阅读全文
摘要:在数据分析中经常会对不同的模型做判断 一、混淆矩阵法 作用:一种比较简单的模型验证方法,可算出不同模型的预测精度 将模型的预测值与实际值组合成一个矩阵,正例一般是我们要预测的目标。真正例就是预测为正例且实际也是正例(预测正确);假反例是实际是正例但模型错误预测成反例(即预测错误);假正例是预测是模型
阅读全文
摘要:在使用堆积条形图时候,新增一个百分比堆积条形图,可以加深读者印象。 封装一个function函数后只需要在调用的数据上改一下pos=‘fill’的代码即可。比较方便。 案例:
阅读全文
摘要:必备数据包“Rmisc” 先准备好需要绘入的图像,以比如p1、p2表示, multiplot(p1, p2) 如果插入图像多,p1、p2、p3、p4,则需要规定图像排列顺序。 multiplot(p1, p2, p3, p4, cols=2)
阅读全文
摘要:基本抽样函数sample sample(x,size,replace=F/T) x是数据集, size规定了从对象中抽出多少个数 replace 为F时候,表示每次抽取后的数就不能在下一次被抽取;T表示抽取过的数可以继续拿来被抽取。 不平衡数据的问题 以某两类数据为目标做抽样,其中一类样本数量特别
阅读全文
摘要:R语言封装函数 原帖见豆瓣:https://www.douban.com/note/279077707/ 一个完整的R函数,需要包括函数名称,函数声明,函数参数以及函数体几部分。 1. 函数名称,即要编写的函数名称,这一名称就作为将来调用R函数的依据。2. 函数声明,函数名称 <- function
阅读全文
摘要:案例 ggplot(head(age_data,10),aes(x=reorder(Country,age_median),y=age_median))+ geom_bar(aes(fill=Country),stat='identity')+ geom_text(aes(label=age_med
阅读全文
摘要:在数据处理中,经常会遇到要对判断结果做处理的情况。if函数是经常遇到的。 ifelse(cond,statment1,statment2) 如果cond成立,执行statment1,否则执行statment2,可以对数据做递归循环。 示例: ifelse()与if(){}else(){}的区别: i
阅读全文
摘要:R语言处理大规模数据速度不算快,通过安装其他包比如data.table可以提升读取处理速度。 案例,分别用read.csv和data.table包的fread函数读取一个1.67万行、230列的表格数据。 参考资料: R语言data.table速查(博客园-Little_Rookie):https:
阅读全文
摘要:/*SELECT `产品号码`, `产品名称`, `产品单价` FROM `产品信息` WHERE `产品单价`>( SELECT AVG(产品单价) FROM `产品信息`);*/ /* SELECT `产品号码`, `产品名称`, `产品单价`, (SELECT AVG(产品单价) FROM `
阅读全文
摘要:https://sqlzoo.net 8. 美國、印度和中國(USA, India, China)是人口又大,同時面積又大的國家。排除這些國家。 顯示以人口或面積為大國的國家,但不能同時兩者。顯示國家名稱,人口和面積。 (成為大國的兩種方式:如果它有3百萬平方公里以上的面積,或擁有250百萬(2.5
阅读全文
摘要:hr员工数据分析项目实战 (数据已脱敏) 背景说明 某公司最近公司发生多起重要员工意外离职、部分员工工作缺乏积极性等问题,受hr部门委托,开展数据分析工作。 经与hr部门沟通,确定以下需求: 制定数据仪表盘实时监控人员变动情况(比如能预知员工离职节点),制作员工画像。 原始数据说明: 共两个sql数
阅读全文

浙公网安备 33010602011771号