随笔分类 - R语言
摘要:# 婚外情数据集data(Affairs, package = "AER")summary(Affairs)table(Affairs$affairs)# 用二值变量,是或否Affairs$ynaffair[Affairs$affairs > 0] |z|) (Intercept) 1....
阅读全文
摘要:unionintersectsetdiff(A,B):A-BA %in% B :A是否存在于B
阅读全文
摘要:简单线性:用一个量化验的解释变量预测一个量化的响应变量多项式:用一个量化的解决变量预测一个量化的响应变量,模型的关系是n阶多项式多元线性:用两个或多个量化的解释变量预测一个量化的响应变量多变量:用一个或多个解释变量预测多个响应变量Logistic:用一个或多个解释变量预测一个类别型响应变量泊松:用一...
阅读全文
摘要:summary()sapply(x,fun,options):对数据框或矩阵中的每一个向量进行统计meansd:标准差var:方差min:max:median:length:range:quantile:vars <- c("mpg", "hp", "wt")head(mtcars[vars])su...
阅读全文
摘要:#安装vcd包,数据集在vcd包中library(vcd)counts <- table(Arthritis$Improved)counts# 垂直barplot(counts, main = "Simple Bar Plot", xlab = "Improvement", ylab = "...
阅读全文
摘要:5.2.1 数据函数abs:sqrt:ceiling:求不小于x的最小整数floor:求不大于x的最大整数trunc:向0的方向截取x中的整数部分round:将x舍入为指定位的小数signif:舍入为指定的有效数字位数cos,sin,tanacos,asin,atan:反正弦,反余弦,反正切cosh...
阅读全文
摘要:mean(!is.na(mat))可以计算数据完整度(没有缺失值的)mean(!is.na(mat))>0.9,90%完整可以使用# 缺失值的位置研究as.vector(attributes(na.omit(mat))$na.action)which(rowSums(is.na(mat))!=0)w...
阅读全文
摘要:好莫名其妙的结果is.na() #NA得不到的值is.nan() #NAN不可能的值is.infinite() #无穷的x1<-NAx2<-0/0x3<-1/0is.na(x1) #TRUEis.nan(x1) #FALSEis.infinite(x1) #FALSEis.na(x2) #TRUEi...
阅读全文
摘要:4.2 创建新变量几个运算符:^或**:求幂x%%y:求余x%/%y:整数除4.3 变量的重编码with():within():可以修改数据框4.4 变量重命名包reshape中有个函数rename,可以改名 rename(df,c(manage='managerID',date='testDate...
阅读全文
摘要:这篇简直是白写了,写到后面发现ggplot明显更好用3.1 使用图形attach(mtcars)plot(wt, mpg) #x轴wt,y轴pgabline(lm(mpg ~ wt)) #画线拟合title("Regression of MPG on Weight")detach(mtcars)...
阅读全文
摘要:2.2.2 矩阵matrix(vector,nrow,ncol,byrow,dimnames,char_vector_rownames,char_vector_colnames)其中:byrow=TRUE/FALSE,表示按行填充还是按列填充,默认情况下是按列填充2.2.4 数据框1.attach,...
阅读全文
摘要:1.3.3 工作空间getwd():显示当前工作目录setwd():设置当前工作目录ls():列出当前工作空间中的对象rm():删除对象1.3.4 输入与输出source():执行脚本
阅读全文
摘要:为了培养一个机器学习领域专家那样的直觉,最好的办法就是,对你遇到的每一个机器学习问题,把所有的算法试个遍,直到有一天,你凭直觉就知道某些算法行不通.
阅读全文
摘要:library('ggplot2')df 0, 1, 0)mean(with(df, logit.predictions == Label))#正确率 0.5156,跟猜差不多一样的结果library('e1071')svm.fit0,1,0)mean(with(df,svm.prediction...
阅读全文
摘要:#一,自己写KNNdf 0.5, 1, 0) } return(predictions)}#添加预测列df 0)sum(predictions != test.y)#结果是50行预测错了16个点,正确率只有68%,因此结论是如果问题完全不是线性时,K近邻的表现好过GLM#三、以下进行推荐案...
阅读全文
摘要:data=iris[,-5]dist.e=dist(data,method='euclidean')model1=hclust(dist.e,method='ward')#分3类result=cutree(model1,k=3)mds=cmdscale(dist.e,k=2,eig=T)x = md...
阅读全文
摘要:library('foreign')library('ggplot2')data.dir6的是无效,1~3是赞成,4~6是反对票no.pres[,i]6,0,no.pres[,i])no.pres[,i]0&no.pres[,i]1,-1,no.pres[,i])}return(as.matrix(...
阅读全文
摘要:library('ggplot2')pricesymd('2001-12-31'))dji.prices<-subset(dji.prices,Date!=ymd('2002-02-01'))#道琼斯数据集中数据好多,只拿收盘价和日期来看一下dji<-with(dji.prices,rev(Clos...
阅读全文
摘要:#凯撒密码:将每一个字母替换为字母表中下一位字母,比如a变成b。english.letterslp1){return(proposed.cipher)}else{#如果旧的比较好,a<-exp(lp2-lp1)#x是均匀分布的0~1间随机数x<-runif(1) if(x<a){return(pro...
阅读全文
摘要:1.提高程序效率,保证执行速度(1)尽量使用向量化运算(2)尽量使用矩阵,必要时才使用数据框(3)使用read.table时,尽量显式设定colClasses和nrows,设定comment.char="",把不需要的列设置为NULL(4)将外部数据导入矩阵时,使用scan函数(5)删除临时对象和不...
阅读全文
浙公网安备 33010602011771号