随笔分类 - R语言统计
用R语言对各种数据进行统计分析
摘要:介绍 文章对已知的多种细胞系混合后进行单细胞10X RNA测序,研究多克隆之间的互作模式。我们这里介绍里面的单细胞测序基因表达细胞分类操作。不过文章选用的是已知固有SNP进行分类,基因表达分类用于和SNP分类进行比较。 代码讲解 读入QC后的seurat obj,过滤代码见之前的博客http://w
阅读全文
摘要:介绍 Sushi包能绘制多种常见的基因组格式的图,包括bed, bedpe, bedgraph,Hic矩阵,也能绘制Manhattan图,基因结构图。 代码讲解 这次为了方便查找,我将他们分到了不同文章里面,每篇文章的封面就是对应的效果图。 bedgraph http://54.189.29.251
阅读全文
摘要:library(data.table) library(org.Hs.eg.db) library(clusterProfiler) setwd("example") dt <- read.table("VanAllen.self_subtract", sep = "\t", header = T)
阅读全文
摘要:介绍 定性资料比如等级,毒性,应答等,可以以具有分级的因子的形式表示,比如(+ ++, +++),分别对应因子的1,2,3种水平,这样不同组样本只要看这些数据的等级的排列是否一致就可以判断这两个群体的分布是否有差异(秩和检验)。 数据 比如数据如下 我们这里想要知道A、B处理毒性是否有差异 代码 l
阅读全文
摘要:使用AI软件,直接从文献的pdf文件中获得颜色16进制色。如下 "3B99D4", "8ED14B", "F06B49","ECC2F1", "82C7C3", "19413E","1776EB", "F5B2AC", "533085","89363A","19413E", "D92B45", "6
阅读全文
摘要:这里我们使用grid对ggplot的画图对象进行布局 参考资料 ClonEvol: clonal ordering and visualization in cancer sequencing文献里面CloneEvol包里面boxplot.r函数
阅读全文
摘要:找到对应的代码如下 .compute.unnormalized.roc.curve function (predictions, labels) { pos.label
阅读全文
摘要:1. 分子生物学中英文.csv,输入文件,两列,以tab键分隔的txt文本,没有列名 2. 错误的名解.csv, 如果在测试中拼写错误,会写出到这个文件,可用这个容易犯错的名词进行新的测试 3. 注意加载data.table包,因为R语言readline函数,使用脚本不能很好交互,暂时只能在R交互模
阅读全文
摘要:思路 grid的画图函数都含有just,但是just参数的是怎么调节图形位置的总是让人非常费解,于是便写了代码来一探究竟。 思路非常简单:放一个2 2的布局viewport,每个布局里面放一个viewport,每个viewport都用了不同的just参
阅读全文
摘要:R语言类 R语言的类有S3类和S4类,S3类用的比较广,创建简单粗糙但是灵活,而S4类比较精细,具有跟C++一样严格的结构。这里我们主要讲S3类。 S3类的结构 S3类内部是一个list,append某个list类名称,就能成为该类。list里面的内容就是我们所说的属性. 首先创建一个list 获得
阅读全文
摘要:```{R} .all_aesthetics ", values, "\n") cat(bullets, sep = "") } Rename American or old style aesthetics name rename_aes
阅读全文
摘要:fread中nThread 参数的使用 注意默认nThread=getDTthreads(),即使用所有能用的核心,但并不是核心用的越多越好,本人亲自测试的情况下,其实单核具有较强的性能,只有在数据大于3Gb的情况下,开启11核(我的机器全部核心30多核)效率才比一个核心更高
阅读全文
摘要:版权声明:本文为博主原创文章,转载请注明出处 我们平常多见的基因突变热图是一个基因一个格子,一种突变类型,但实际上在同一个病人中,同一个基因往往具有多种突变类型,因此传统的热图绘制工具并不能满足我们绘图的需要。应研究需要,本人自己写了一个热图绘制函数,内部调用image 进行
阅读全文
摘要:前期处理 perl脚本统计RC(RC(read counts)) 读入control baseline 和 sigma(最后baseline 预测的mad值) 将gc 0.68,sigma乘上1.5,后来又乘以6,对于小于0.01或者大于0.99分位数,sigma取0.01和0.99分位点的sigm
阅读全文
摘要:进行数据初步处理(perl) 统计amplicon的RC(read counts),并且相互overlap大于75%的amplicon合并起来 统计每个amplicon的GC含量,均值, 性别识别并校正,文库大小、长度、GC含量标准化 文库大小标准化 某个sample的文库大小(read count
阅读全文
摘要: 如果要使用新版本的R,除了直接安装,也可以直接拷贝R的文件夹。这样既可以保留原始的R版本和R包,也可以使用新版本的R和R包,R包存放在R目录下的library文件夹。 文件放路径 R: /usr/lib64/R llibrary: 系统R library目录:/usr/lib
阅读全文
摘要:版权声明:本文为博主原创文章,转载请注明出处 机器学习的研究领域是发明计算机算法,把数据转变为智能行为。机器学习和数据挖掘的区别可能是机器学习侧重于执行一个已知的任务,而数据发掘是在大数据中寻找有价值的东西。 机器学习一般步骤 收集数据,将数据转化为适合分析的电子数据 探索和
阅读全文
摘要:主要步骤 pheatmap 数据处理成矩阵形式,给行名列名 用pheatmap画热图(pheatmap函数内部用hclustfun 进行聚类) ggplot2 数据处理成矩阵形式,给行名列名 hclust聚类,改变矩阵行列顺序为聚类后的顺序 melt数据,处理成ggplot2能够直接处理的数据结构,
阅读全文
摘要: 当我们想研究不同sample的某个变量A之间的差异时,往往会因为其它一些变量B对该变量的固有影响,而影响不同sample变量A的比较,这个时候需要对sample变量A进行标准化之后才能进行比较。标准化的方法是对sample 的 A变量和B变量进行loess回归,拟合变量A关于
阅读全文
摘要:2048 是一款益智游戏,只需要用方向键让两两相同的数字碰撞就会诞生一个翻倍的数字,初始数字由 2 或者 4 构成,直到游戏界面全部被填满,游戏结束。 编程时并未查看原作者代码,不喜勿喷。 程序结构如下: R语言代码: 游戏画面 参考资料 张丹.R的极客理想:http://www.kuqin.com
阅读全文

浙公网安备 33010602011771号