随笔分类 -  R语言

摘要:1.read.table:可以读TXT也可以读CSV(1)file:文件名(2)header:是否包含表头(3)sep:分隔符,如果不设定默认是空格(4)dec:标志小数点符号,有些国家的小数点是逗号(5)quote:字符串中间如果有引号的处理(6)row.names:行名,行名不能重复。row.n... 阅读全文
posted @ 2015-11-04 13:59 地表最强队队员 阅读(5697) 评论(1) 推荐(0)
摘要:.Machine$double.eps 阅读全文
posted @ 2015-11-01 15:41 地表最强队队员 阅读(894) 评论(0) 推荐(0)
摘要:library(randomForest)model.forest<-randomForest(Species~.,data=iris)pre.forest<-predict(model.forest,iris)table(pre.forest,iris$Species)library(rpart)... 阅读全文
posted @ 2015-11-01 14:03 地表最强队队员 阅读(3283) 评论(0) 推荐(0)
摘要:在CRAN中没有,如果通过R下载经常会出错,使用以下地址下载后加载本地包http://R-Forge.R-project.org/bin/windows/contrib/3.0/Rwordseg_0.2-1.zip 阅读全文
posted @ 2015-10-31 15:08 地表最强队队员 阅读(677) 评论(0) 推荐(0)
摘要:library(AMORE)data=1.5)] <- 2sum = 0for(i in 1:500){if(y[i]==test[i,25]){sum =sum+1}}cat("正确率", sum/500, "n") 阅读全文
posted @ 2015-10-31 14:31 地表最强队队员 阅读(8320) 评论(2) 推荐(0)
摘要:gc() 阅读全文
posted @ 2015-10-28 13:08 地表最强队队员 阅读(6974) 评论(0) 推荐(0)
摘要:1.kappa值2.library(car)vif(lm.sol)得到各个系数的方差膨胀因子,当0=100,多重共线性非常严重。 阅读全文
posted @ 2015-10-27 00:13 地表最强队队员 阅读(648) 评论(0) 推荐(0)
摘要:data 0, 1, 0)#第二种方法,把预测结果转成概率值library('boot')inv.logit(predict(regularized.fit, newx = x, s = 0.001))#看效果set.seed(1)performance 0, 1, 0) error.rat... 阅读全文
posted @ 2015-10-25 15:42 地表最强队队员 阅读(340) 评论(0) 推荐(0)
摘要:线性回归函数model<-lm(Weight~Height,data=?)coef(model):得到回归直线的截距predict(model):预测residuals(model):残差cor:相关性MSE:均方误差RMSE:均方误差的平方根,为0最好。缺点是可以取无限的值,这很难知识模型效果是否... 阅读全文
posted @ 2015-10-25 13:24 地表最强队队员 阅读(291) 评论(0) 推荐(0)
摘要:1.计算缺失值比例perNA=8)Data2[NAIDX]=minSize,]) 阅读全文
posted @ 2015-10-25 09:51 地表最强队队员 阅读(464) 评论(0) 推荐(0)
摘要:串行APPLY<- function(m){ mTemp <- apply(m, 2, mysort) return(mTemp)}snowfall包的并行SNOWFALL<-function(m,ncl){ library(snowfall) sfInit(parallel = TRUE,... 阅读全文
posted @ 2015-10-25 09:44 地表最强队队员 阅读(774) 评论(0) 推荐(0)
摘要:R语言中用double表示日期,即从1970-1-1距离给定日期的天数,将5位数字日期转为正常日期格式的方法as.Date(16543,origin='1970-1-1') 阅读全文
posted @ 2015-10-24 10:01 地表最强队队员 阅读(3039) 评论(0) 推荐(1)
摘要:with(priority.train, table(From.EMail))统计priority.train中From.EMail的频数 阅读全文
posted @ 2015-10-22 20:00 地表最强队队员 阅读(3893) 评论(0) 推荐(0)
摘要:#数据集来源http://spamassassin.apache.org/publiccorpus/#加载数据library(tm)library(ggplot2)data.path,有些没有#参数是一封邮件向量,每一个元素就是邮件的一行get.from ]')[[1]]#忽略空元素 from ... 阅读全文
posted @ 2015-10-22 14:18 地表最强队队员 阅读(386) 评论(0) 推荐(0)
摘要:#定义函数,打开每一个文件,找到空行,将空行后的文本返回为一个字符串向量,该向量只有一个元素,就是空行之后的所有文本拼接之后的字符串#很多邮件都包含了非ASCII字符,因此设为latin1就可以读取非ASCII字符#readLines,读取每一行作为一个元素#异常捕获是自己加的,书上没有,不加会出错... 阅读全文
posted @ 2015-10-22 00:40 地表最强队队员 阅读(637) 评论(0) 推荐(0)
摘要:#均值:总和/长度mean()#中位数:将数列排序,若个数为奇数,取排好序数列中间的值.若个数为偶数,取排好序数列中间两个数的平均值median()#R语言中没有众数函数#分位数quantile(data):列出0%,25%,50%,75%,100%位置处的数据#可自己设置百分比quantile(d... 阅读全文
posted @ 2015-10-21 21:34 地表最强队队员 阅读(590) 评论(0) 推荐(0)
摘要:#使用数据:UFO数据#读入数据,该文件以制表符分隔,因此使用read.delim,参数sep设置分隔符为\t#所有的read函数都把string读成factor类型,这个类型用于表示分类变量,因此将stringsAsFactors设置为False#header=F表示文件中并没有表头#na.str... 阅读全文
posted @ 2015-10-21 19:40 地表最强队队员 阅读(728) 评论(0) 推荐(0)