03.转录组数据下载

表达矩阵文件一般比较大，小的几百M，大的1-2个G，浏览器直接下载很慢，后台一直打包下载不下来。

1.用命令行下载。 gdc-client工具下载网站： https://gdc.cancer.gov/access-data/gdc-data-transfer-tool 。此外，用 gdc-client.exe 下载的话还需要额外安装 Strawberry Perl。

2.用R语言代码下载。

1. 用命令行下载

在工作目录下创建expdata文件夹，用来存放下载的表达数据文件

进入GDC官网： https://portal.gdc.cancer.gov/ ：

选择数据前记得清空购物车：

在Repository勾选需要的case和file类型。

mRNA转录组数据的file类型如下：

选好后添加到Cart，进入Cart界面下载。

表达数据文件包括：Manifest、Metadata。（这两个文件很小，不需要调用IDM等下载器）

Manifest：txt文件，清单文件。用 gdc-client.exe 下载文件要用到。

Manifest文件长这样：

其中，“id”为各文件夹名称，“filename”为tsv文件名称。

Metadata：json文件，包括文件信息和样本的关系。数据分析要用。

Metadata文件长这样：

其中，“associated_entities”下的“entity_submitter_id”为该tsv文件对应的样品id，“file_name”为样本对应的tsv文件名称，“file_id”为该文件所属的文件夹。

下载好两个文件后，把这两个文件连同 gdc-client.exe 文件一起放在工作目录下。然后在 cmd 或者 powershall 中运行以下命令：

（不要直接复制粘贴，用手打。因为manifest文件名每次都不一样）

gdc-client.exe download -m gdc_manifest_expdata.2020-03-23.txt -d expdata
# 代码解析：
# gdc-client：下载工具文件
# download：函数，实现下载功能
# -m：download的参数，表示manifest，清单文件
# gdc_manifest_cl.2020-03-23.txt：-m参数的值，需修改（与manifest文件名一致）
# -d：download的参数，表示directory，下载路径
# clinical：-d参数的值

下载好的文件是按样本存放的，每个样品一个文件夹，每个文件夹下都有一个tsv文件。tsv文件长这样：

其中，“gene_id”为Ensembl id；“gene_name”为symbol id；“gene_type”为该基因的类型，有protein coding（mRNA），lncRNA，这两个种RNA是常用的。另外，miRNA的分析得单独下载。unstranded就是count数，tpm和fpkm是常用的标准化数据，但tpm更好一些。

如果是做差异分析的话，建议采用counts ，有不少的差异分析的软件都是基于counts数，比如edgeR和DEseq2，要求输入的为counts数。如果是计算样品间的相关性，聚类等，那就可以采用均一化的TPM。

TPM与FPKM的区别：从计算公式来说，唯一的不同是计算操作的顺序，TPM是先去除了基因长度的影响，而FPKM是先去除测序深度的影响，TPM实际上改进了FPKM方法在跨样品间定量的不准确性。

查看一下下载文件的数量：

length(dir("./expdata/"))

下载的文件是按样本存放的，我们需要得到的是表格，需要将他们批量读入R语言并整理。

2.用R语言代码下载

这些R包都可以进行TCGA数据下载。

主要有这几种R包：GDCRNATools，TCGAbiolinks，RTCGA，GenomicDataCommons。

详见分类R包及函数学习。

posted on 2023-11-06 13:49 小高不高阅读(635) 评论(0) 收藏举报

刷新页面返回顶部

教小高改bug

03.转录组数据下载

1. 用命令行下载

2.用R语言代码下载