教小高改bug

:: :: :: :: :: ::

图表介绍 - 热图、散点图、箱线图、火山图、PCA

1. 热图

输入数据是数值型矩阵 / 数据框

颜色的变化表示数值的大小

2. 散点图和箱线图

散点图和箱线图的差别：箱线图就是散点图把横坐标弱化的结果。弱化个体的概念，强化群体的概念，把同一个分组放到一起，就形成了箱线图。

箱线图的输入数据是一个数值型向量和一个字符串向量（重复值）

箱线图：

箱线图的作用：单个基因在两组之间的表达量差异。如果是多个基因，则需要量化指标：logFC，P.Value，来界定一个基因是否属于差异基因。

3. 火山图

logFC：

Foldchange（FC）：处理组平均值 / 对照组平均值

logFoldchange（logFC）：Foldchange取log₂，处理 / 对照表达量差异倍数的log值

logFC = log₂(x/y) = log(x) - log(y)：处理组表达量的log平均值log(x) - 对照组表达量的log平均值log(y)

logFC一般在10以内，差距为2¹⁰ = 1024倍。大多在5以内。

结论：

logFC > 0，treat > control，基因表达量上升；

logFC < 0，treat < control，基因表达量下降。

通常所说的上调、下调基因是指表达量显著上升/下降的基因。“显著”需结合P值。

如：

上调基因：logFC > 1（处理组在对照组的2倍以上），p < 0.01

下调基因：logFC < -1（处理组在对照组的1/2以下），p < 0.01

常见的logFC有1（2倍），1.2，1.5，2（4倍），2.2...

常见的P的取值有0.05，0.01...

P.Value

P值越小，纵座标 “-log₁₀(Pvalue)” 越大，差异越显著。

右上角的点上调大，P值小

左上角的点下调大，P值小

4. PCA（主成分分析）

主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标（即主成分）。

根据这些主成分对样本进行聚类，代表样本的点在坐标轴上距离越远，说明样本差异越大。

目的：看两个或多个分组之间能否分得开，能否找到差别。是一种质控的手段。

横坐标：变量；纵坐标：每个样本在变量上的具体值。一个样本是一条线。但样本量大时比较乱。

提取主成分1和主成分2作为横纵坐标，将上述线转换成点，一个点表示一条线：

这种形式会更加清晰。

posted on 2022-09-08 18:38 小高不高阅读(3309) 评论(0) 收藏举报

刷新页面返回顶部