1. 热图
输入数据是数值型矩阵 / 数据框
颜色的变化表示数值的大小


2. 散点图和箱线图

散点图和箱线图的差别:箱线图就是散点图把横坐标弱化的结果。弱化个体的概念,强化群体的概念,把同一个分组放到一起,就形成了箱线图。
箱线图的输入数据是一个数值型向量和一个字符串向量(重复值)
箱线图:

箱线图的作用:单个基因在两组之间的表达量差异。如果是多个基因,则需要量化指标:logFC,P.Value,来界定一个基因是否属于差异基因。

3. 火山图

logFC:
Foldchange(FC):处理组平均值 / 对照组平均值
logFoldchange(logFC):Foldchange取log2,处理 / 对照表达量差异倍数的log值
logFC = log2(x/y) = log(x) - log(y):处理组表达量的log平均值log(x) - 对照组表达量的log平均值log(y)
logFC一般在10以内,差距为210 = 1024倍。大多在5以内。


结论:
logFC > 0,treat > control,基因表达量上升;
logFC < 0,treat < control,基因表达量下降。
通常所说的上调、下调基因是指表达量显著上升/下降的基因。“显著”需结合P值。
如:
上调基因:logFC > 1(处理组在对照组的2倍以上),p < 0.01
下调基因:logFC < -1(处理组在对照组的1/2以下),p < 0.01
常见的logFC有1(2倍),1.2,1.5,2(4倍),2.2...
常见的P的取值有0.05,0.01...
P.Value
P值越小,纵座标 “-log10(Pvalue)” 越大,差异越显著。
右上角的点上调大,P值小
左上角的点下调大,P值小
4. PCA(主成分分析)
主成分分析也称主分量分析,旨在利用降维的思想,把多指标转化为少数几个综合指标(即主成分)。
根据这些主成分对样本进行聚类,代表样本的点在坐标轴上距离越远,说明样本差异越大。
目的:看两个或多个分组之间能否分得开,能否找到差别。是一种质控的手段。
横坐标:变量;纵坐标:每个样本在变量上的具体值。一个样本是一条线。但样本量大时比较乱。
提取主成分1和主成分2作为横纵坐标,将上述线转换成点,一个点表示一条线:
这种形式会更加清晰。




浙公网安备 33010602011771号