随笔分类 -  统计R

YuLabSMU 截断部分坐标轴 留些空白
摘要:library(ggplot2) library(ggbreak) set.seed(2019-01-19) rnorm(5) rnorm(5)+4 d<-data.frame(x=1:20,y=c(rnorm(5)+4,rnorm(5)+20,rnorm(5)+5,rnorm(5)+22)) p1 阅读全文

posted @ 2022-02-23 21:33 BioinformaticsMaster 阅读(393) 评论(0) 推荐(0)

geom_boxplot 箱线图
摘要:ggplot(data=data1,mapping = aes(x=VARIANT_TYPE,y=NON_REF_GENOTYPE_CONCORDANCE))+geom_boxplot()+scale_y_continuous(expand=c(0,0),breaks = c(0,75,0.80,0 阅读全文

posted @ 2022-02-19 11:14 BioinformaticsMaster 阅读(401) 评论(0) 推荐(0)

R 遍历目录下所有子目录中的某类文件
摘要:testvcfdir="/jdfssz1/ST_HEALTH/P18Z10200N0124/qdNB/" testvcfList <- list.files(testvcfdir, pattern = "*.genotype.vcf.gz$", include.dirs = FALSE, full. 阅读全文

posted @ 2022-02-18 14:00 BioinformaticsMaster 阅读(123) 评论(0) 推荐(0)

R 定义函数 ,里面嵌套条件
摘要:myfunction<-function(arg1,arg2,...){ statements return (object) } 例1 function1<-function(x,y){plot(x,y) + return(x+y)}x<-rnorm(10)xy<-rnorm(10,2,3) fu 阅读全文

posted @ 2022-02-17 15:35 BioinformaticsMaster 阅读(92) 评论(0) 推荐(0)

geom_point 散点分布图 配色
摘要:1. GATK GenotypeConcordance p<-ggplot(data=data1,mapping=aes(x = TRUTH_SAMPLE,y=NON_REF_GENOTYPE_CONCORDANCE,colour=VARIANT_TYPE,shape=VARIANT_TYPE )) 阅读全文

posted @ 2022-02-16 20:50 BioinformaticsMaster 阅读(994) 评论(0) 推荐(0)

list.files() list.dirs()
摘要:list.files("./",pattern = "*.R$",include.dirs = TRUE,full.names = TRUE,recursive = TRUE) pattern 正则表达式,仅list匹配上的 recursive=TRUE 遍历子目录 full.names=TRUE 阅读全文

posted @ 2022-02-11 13:03 BioinformaticsMaster 阅读(397) 评论(0) 推荐(0)

Rstudio 使用
摘要:Rstudio script 运行单行/多行代码 选择多行代码,按下 Ctrl/command + Enter 键(或使用 Source 窗口标题栏上的 Run 按钮)。 在运行完某一段代码后,按下 Ctrl + Shift + P 键(或对应的标题栏按钮),即可重新运行上一次运行的代码段(单行或多 阅读全文

posted @ 2022-02-11 11:52 BioinformaticsMaster 阅读(693) 评论(0) 推荐(0)

ggplot2(grammar of graphic)
摘要:ggplot2 特点 1. 采用图层的设计,利于结构化思维实现数据可视化。明确的起始 ggplot() , 图层之间叠加通过+实现 。通常geom_xx()或stat_xx()绘制一个图层 2. 把表征数据与图形细节分开,便于创造性的绘图。通过stat_xx()实现将常见的统计变换融入绘图中 3. 阅读全文

posted @ 2022-02-09 14:43 BioinformaticsMaster 阅读(175) 评论(0) 推荐(0)

想取出两列数据不同 对应的那行观测
摘要:想取出两列数据对应不同的那行观测 ,一步实现不来如bamsex_proportion[bamsex_proportion$sex1male_2female !=bamsex_new$sex1male_2female] 只能先把比较结果赋值给新列,再取出来对应的观测, bamsex_proportio 阅读全文

posted @ 2022-02-08 19:22 BioinformaticsMaster 阅读(49) 评论(0) 推荐(0)

subset 函数 选择数据框/向量的子集
摘要:subset(数据框,条件) 按条件选择子集 Datafra<-data.frame(name=c(1,2,4,NA,4,5,7),family=c("xiao","ming",NA,NA,"zhou","zheng","li")) Datafra subset(Datafra,name>=1) s 阅读全文

posted @ 2022-02-08 19:15 BioinformaticsMaster 阅读(223) 评论(0) 推荐(0)

R 处理、可视化 多变量数据
摘要:factoextra 包 1 PCA Principal Component Analysis 2 CA Correspondence Analysis 3 MCA Multiple corespondence Analysis 4 MFA Multiple Factor Analysis 5 HM 阅读全文

posted @ 2022-02-07 13:39 BioinformaticsMaster 阅读(235) 评论(0) 推荐(0)

ggplot tools ggpubr arrange
摘要:library(ggpubr) # ggpubr 是基于ggplot2开发,更便捷,使图满足论文出版的需要。 df<-iris colnames(df)<-paste0("V",1:5) # paste0 连接符是空字符串,相比paste不能设置sep df p1<-ggplot(df,aes(x= 阅读全文

posted @ 2022-02-04 14:50 BioinformaticsMaster 阅读(188) 评论(0) 推荐(0)

R 矩阵数组
摘要:A<-matrix(11:16,nrow=3,ncol=2) # 实际按向量存储,根据保存的行数,列数对应到矩阵的元素,存储次序默认是按列存储。 B<-matrix(c(1,-1,1,1),nrow=2,ncol=2,byrow=TRUE) #设置byrow=TRUE,则按行存储 取矩阵的行数 nr 阅读全文

posted @ 2022-01-31 10:01 BioinformaticsMaster 阅读(64) 评论(0) 推荐(0)

R 列表
摘要:R 列表list 保存不同类型的数据,可提供R分析结果的包装,如输出一个包含回归系数、预测值、残差、检测结果等不规则数据结构的变量。 相比数据框,列表不要求各列等长 相比向量,列表不要求所有元素类型相同 赋值 如rec<-list(name="liming",age=30,scores=c(85,7 阅读全文

posted @ 2022-01-27 17:35 BioinformaticsMaster 阅读(152) 评论(0) 推荐(0)

uniq 搭配sort 去除重复行,查找重复行
摘要:去除重复行 sort $file |uniq 查看重复行 sort $file|uniq -d 统计重复情况 sort $file|uniq -c 查看非重复行 sort $file|uniq -u 阅读全文

posted @ 2022-01-27 09:38 BioinformaticsMaster 阅读(73) 评论(0) 推荐(0)

作图与修图
摘要:作图与修图是个手艺,需要磨 1天不行,就两天,做个好图,花费很多时间很正常 作新图 数据梳理 核心画图函数掌握 修理 在现有脚本基础上做图 拷贝到Rstudio,逐个代码块运行,调试 需要参考时可以google,键入关键词 如roc ggplot2 阅读全文

posted @ 2022-01-23 20:52 BioinformaticsMaster 阅读(61) 评论(0) 推荐(0)

stringR包 字符串拼接,对字符串切分 替换 匹配提取 位置提取
摘要:paste("D","CMDCB0000013","-1",sep = "") 拼接字符串,可以用于新增列non_json$DNAcode<-paste("D",non_json$Sample,"-1",sep="") ,当然搭配mutate用也一样 stringR 包对字符串切分 替换 匹配提取 阅读全文

posted @ 2022-01-19 11:00 BioinformaticsMaster 阅读(296) 评论(0) 推荐(1)

保存重要,未完的工作空间
摘要:save.image("hello.RData") 保存整个工作空间到文件,加载方式: 下次打开默认工作目录时如果有.RData文件时会自动加载 通过load() 读取工作空间 #save 是可以选择些变量保存到文件,如save(numbers_1, file = "hello1.RData") 保 阅读全文

posted @ 2022-01-01 15:27 BioinformaticsMaster 阅读(249) 评论(0) 推荐(0)

R 随机取样 , 随机取文件的行
摘要:> sample(c(1:10),8) # 对向量取样,默认是不放回抽样,replace=FALSE > sample(c(1:10),8,replace=TRUE) # 放回抽样 对数据框不放回抽行 dataframe[sample(nrow(dataframe), 10), ] #datafra 阅读全文

posted @ 2022-01-01 15:01 BioinformaticsMaster 阅读(447) 评论(0) 推荐(0)

计数函数n() count()
摘要:n()外的计数函数还包括 n_distinct(x)取x向量中unique值的个数,等同 length(unique(x))。如: tally(x, wt = NULL, sort = FALSE, name = "n") count(x, ..., wt = NULL, sort = FALSE, 阅读全文

posted @ 2021-12-20 17:06 BioinformaticsMaster 阅读(371) 评论(0) 推荐(0)

导航