随笔分类 -  统计R

group_by 对mutate,summary里的基础函数的适用情况
摘要:group_by的价值在于对 从对整个数据框的数据处理,转换为对每个组内的数据处理。 如:> not_cancelled %>%group_by(year,month,day)%>%filter(rank(desc(arr_delay))<=10) %>% select(month,year,day 阅读全文

posted @ 2021-12-18 22:19 BioinformaticsMaster 阅读(332) 评论(0) 推荐(0)

rep()复制向量
摘要:> rep(1:4,2) 复制向量两次 > rep(1:4,each=2) 向量内每个元素复制两次 > rep(1:4,each=2,times=3) 向量内每个元素复制两次,向量复制3次。 注: > rep(c("a","b","c"),each=3) #rep 字符串向量情景 [1] "a" " 阅读全文

posted @ 2021-12-18 16:22 BioinformaticsMaster 阅读(58) 评论(0) 推荐(0)

下检测单前,过滤重复数据
摘要:需求: 1)与以前存在的样本名称相同的,筛选出来,这是重复样本,做减法,不后续实验 2) 重复样本中以前检测不合格的,加上,做后续实验。 准备工作: 1.unique的已存在样本列表 first_four_Sample<-read.csv("./first_four_Sample.csv") #如果 阅读全文

posted @ 2021-12-17 16:14 BioinformaticsMaster 阅读(71) 评论(0) 推荐(0)

summarize() 计算摘要统计量 搭配group_by()分组计算 ; 等效aggregate()
摘要:summarize() 即summarise(). 输出列包含group_by分组变量以及计算所得统计量 如: > flights %>% group_by(year,month,day) %>% summarize(delay=mean(dep_delay,na.rm=T)) # na.rm=T 阅读全文

posted @ 2021-12-15 21:39 BioinformaticsMaster 阅读(1029) 评论(0) 推荐(0)

常用于mutate()创建变量时的基础运算与函数
摘要:x/sum() 计算x各个分量在总数中的比例 y-mean(y) 计算y各分量与均值之间的差异 %/% 整除 %%求余数 注:当一个向量中的值不够用时,这个向量会被循环使用。如1:3+1:10等价于c(1 + 1, 2 + 2, 3 + 3, 1 + 4, 2 + 5, 3 + 6, 1 + 7, 阅读全文

posted @ 2021-12-14 15:57 BioinformaticsMaster 阅读(156) 评论(0) 推荐(0)

tidyverse select() 选择列 搭配mutate()增加列
摘要:$dataframe %>%select($var1,$var2,$var3) #列名,但建议用这种。 $dataframe %>%select($index1,$index2,$index3) #列的位置 上述等效,但建议用列名选择。 如flights%>%select(year,month,da 阅读全文

posted @ 2021-12-14 12:16 BioinformaticsMaster 阅读(1018) 评论(0) 推荐(0)

tibble
摘要:tidyverse包内的新定义的数据类型,是data.frame的子类型。函数、操作上与data.frame类似。 tibble标识列类型: int integer 存储正数 dbl double 普通数值型数据,可正可复,可大可小,可含小数可不含 chr character向量或字符串。 dttm 阅读全文

posted @ 2021-12-13 17:50 BioinformaticsMaster 阅读(140) 评论(0) 推荐(0)

管道符号 筛选、排序行filter(),arrange(), slice()
摘要:%>% 管道函数读"then",即然后 把左边值发送到右边的表达式,并作为右边表达式函数的第一个参数。 当操作多个数据集或函数时,使用%>%会更方便,更逻辑性。 R 其他含义的管道符号用的少,包括: %<>% 在%>%基础上,把右边的最终返回值返回给左边 %T>% 把左边值传入后,不产生任何返回值( 阅读全文

posted @ 2021-12-10 13:50 BioinformaticsMaster 阅读(1125) 评论(0) 推荐(0)

R Debug
摘要:1. 虽然说逗号的bug,但其实是多了个( 2. read.csv 报: '<ca><c7>'多字节字符串有错 Error in read.table(file = file, header = header, sep = sep, quote = quote, : 输入中没有多出的行 Cause: 阅读全文

posted @ 2021-12-09 19:45 BioinformaticsMaster 阅读(347) 评论(0) 推荐(0)

mutate()为入口 管道符操作数据
摘要:mutate()添加新变量列,保留之前。注:如果没有赋予新值,则在原列基础操作,这种情况多在管道符。 注:新增列与已有列的行数会一致,也要求一致。 transmute() 添加新变量列,并删除现有列。 当与现有具相同变量名,则会覆盖现有变量名 mutate() 增加新列,可以基于现有列运算新列的值, 阅读全文

posted @ 2021-12-07 13:55 BioinformaticsMaster 阅读(318) 评论(0) 推荐(0)

factor()函数
摘要:因子型(factor)表示编号或登记,是用来存储类别的数据类型,是离散的,与连续性值相对。如果把数字作为因子,那么在导入数据后,需要将向量转换为因子(factor),而因子在整个计算过程中不再作为数值,而是作为“符号”。 讲的很好的R因子 data <- c(1,2,2,3,1,2,3,3,1,2, 阅读全文

posted @ 2021-12-01 17:25 BioinformaticsMaster 阅读(1205) 评论(0) 推荐(0)

R类别比较型图-柱形图系列
摘要:ggplot2绘制柱形图和条形图,X轴变量默认按照输入的数据顺序绘制,Y轴变量和图例变量默认按照字母顺序绘制。因此在绘图前先排序。 geom_bar绘制柱形图包括单数据系列柱形图、多数据系列柱形图、堆积柱形图、百分比推挤柱形图。 X轴一般是类别型()和序数型(按顺序绘制),Y轴为数值型。 当X是类别 阅读全文

posted @ 2021-11-30 09:06 BioinformaticsMaster 阅读(203) 评论(0) 推荐(0)

孟德尔随机化MR
摘要:软件包: install.packages("devtools") library(devtools) install_github("MRCIEU/TwoSampleMR") Ref: https://www.cnblogs.com/chenwenyan/p/11224609.html 阅读全文

posted @ 2021-11-23 14:29 BioinformaticsMaster 阅读(407) 评论(0) 推荐(0)

R 读取, 列,某行,操作,保存
摘要:导入数据,观察数据,操作数据,可视化展示,关闭数据 data<-read.csv("xx.csv",header=1)#第一行是header,不是值 。 取数据时候,较有用的参数还有stringsasfactor=Fasle,这样就不会把所有的字符型变量转换成Factor因子。因子是不能用与字符串操 阅读全文

posted @ 2021-11-05 13:27 BioinformaticsMaster 阅读(8749) 评论(0) 推荐(0)

apply函数对行/列运算
摘要:apply(X,MARGIN,FUN,...) 对矩阵、数据库、数组按行或列进行迭代计算,返回向量或数组或值列表。 apply系列函数有效替代R中比较慢的for循环。 X: 输入的数组、矩阵,如果是数据框会自动转换成矩阵 MARGIN:按行计算或按列计算,1表示按行,2表示按列。 FUN:调用的函数 阅读全文

posted @ 2021-10-01 16:07 BioinformaticsMaster 阅读(899) 评论(0) 推荐(0)

表格拼接,融合
摘要:cbind(df1,df2) 横向添加表格,表格变宽,增加列数 rbind(df1,df2,...) 纵向合并多个数据集,表格变长,增加行数, 类似cat命令,要求列数相同 例子: 表格融合:针对数据框没有很好的保持一致。可用函数R内置的merge() 和dplyr的_join()函数。注:merg 阅读全文

posted @ 2021-10-01 14:14 BioinformaticsMaster 阅读(216) 评论(0) 推荐(0)

表格转换,多行聚集成列,长列转换成多行
摘要:我从中学开始就立体,较多维的数据理解不强,所以这部分进度慢些很正常 R ggplot2绘图常用一维数据列表的数据框,所以常用到多行聚为列这个功能。 减列数,减维: 常用包:reshape2,tidyr以及聚集了tidyr等包的tidyverse。 创建例子df<-data.frame(x=c("A" 阅读全文

posted @ 2021-10-01 10:42 BioinformaticsMaster 阅读(81) 评论(0) 推荐(0)

ggplot2 配色渐变 二色/三色梯度
摘要:scale_colour_gradient()和scale_fill_gradient():指定双色梯度。顺序由低到高。 双色梯度low和high控制梯度两颜色。 例: ggplot() + geom_point(data = mtcars, aes(x = mpg, y = disp, color 阅读全文

posted @ 2021-03-31 22:03 BioinformaticsMaster 阅读(8613) 评论(0) 推荐(0)

画学术图表 A picture is worth a thousand words
摘要:学术图表 A picture is worth a thousand words 图表在论文中的作用: 1)真实、准确、全面地展示数据 2)以较小的空间承载较多的信息 3)揭示数据的本质、关系、规律 学术图表的原则:规范、简洁、专业、美观。 学术图表是为论文结论(conclusion)提供证据的诗句 阅读全文

posted @ 2021-03-31 19:28 BioinformaticsMaster 阅读(324) 评论(0) 推荐(0)

Mac Rstudio 快捷键
摘要:Source 栏 运行当前选中代码: Command+Enter 打开文件:Command+O 保存当前文件:Command+S 关闭当前文件:Command+W 运行当前文件:Command+option+R 运行文件从开头到光标所在处代码:Command+option+B 运行文件从光标所在处到 阅读全文

posted @ 2021-03-29 21:10 BioinformaticsMaster 阅读(1253) 评论(0) 推荐(0)

导航