TCGA | CCLE | 数据挖掘基本教程 | GTEx

 

2023年05月02日

还好没有走上纯生信的灌水之路,要扎扎实实的搞干湿结合,只有问题问好了、实验设计好了、数据测好了,生信才能迸发出高能的威力!

TCGA数据下载 基本的TPM表达数据 

历史代码:http://localhost:17435/notebooks/data_center/DB/DB.ipynb

 


 

没办法了,生信博士毕业了,很尴尬,方法做不来,实验做不了,自己最能把握的就是公共数据挖掘。

灌水也是没办法的,新人要生存啊,前3年要玩命干,灌水也能快速熟悉领域基本情况,当然也要有能拿得出手的paper,NAR、GB、NC等。

 

生信公共数据挖掘的几大方向:

  • TCGA
  • GEO
  • 单细胞
  • UKBB
  • 文献挖掘 - 基因互作
  • 数据库构建,灌水NAR

 

有好多人开始卖铲子了,出了TCGA数据挖掘的系列课程,基本都是收费的,咱们都是生信专家了,怎么可能花钱去买,咱水平基本看标题就能给你写出一篇新的,还有代码。

几个可供参考的课程【看看提纲即可】:

 

微信公众号有很多文章套路讲解实例,这个最容易学习和模仿。

 


 

 

这里只列出课程整体的逻辑框架,具体细节再单独开篇。

 

TCGA数据分析全攻略(第二期) - 生信控

【这个教程确实很low,相关性都能将一节课,我一行代码搞定】

Rstudio

TCGA RNA表达数据下载与整理

RNA差异表达分析

ROC曲线

TCGA临床数据下载与整理

基因表达与临床因素相关性

临床分组表达量分析

生存分析

COX分析

列线图模型

基因表达拷贝数甲基化

成熟体miRNA表达数据下载与整理

miRNA差异表达分析

靶基因分析

基因与miRNA表达相关性分析

miRNA生存分析

GSEA分析

cBioPortal分析复现

 

 

TCGA数据挖掘5天授课(2021)

11-15-1 TCGA介绍和R语言基础复习

00:01:24 - TCGA 流程
00:18:00 - 新建Rmd
00:20:26 - 介绍Rmd文件渲染/导出
00:25:10 - 代码块 option
00:26:22 - 运行代码块
00:27:41 - markdown基本语法
00:28:02 - 导出的 html 文件打开以及修改
00:32:38 - 复习R语言


11-15-2 TCGA-数据下载与整理

00:00:42 - 差异分析的起点 counts reads
00:04:21 - 拿不到counts
00:07:49 - TCGA癌症类型
00:09:46 - RNA-seq样本数量 肿瘤远远多于正常
00:12:00 - TCGA+GTEX的样本数量
00:15:00 - Xena
00:15:45 -TCGA差异分析的输入数据整理
00:19:00 - Xena演示
00:21:44 - 表达矩阵
00:23:44 - 为什么临床数据和RNA-seq数据数量不一样多
00:24:59 - 脚本组织方式演示
00:30:32 - HTML展示TCGA数据下载和整理


11-15-3 TCGA-其他来源的数据整理

00:02:13 - gdc - client数据下载步骤
00:07:59 - GDCRNATools 数据下载步骤
00:14:20 - 其他数据来源GEO
00:29:51 - 三大R包差异分析
00:32:57 - 差异分析
00:40:30 - 两个函数


11-16-1 TCGA-转录组数据差异分析及其可视化

00:01:30 - 总结上一节的流程
00:04:10 - 三大R包差异分析
00:06:00 - 三大R包差异分析HTML讲解DESeq2
00:22:28 - edgeR
00:25:00 - limma
00:28:06 - 验证差异基因是否正确
00:51:16 - patchwork拼图
00:52:24 - 分组聚类热图 组内聚类


11-16-2 TCGA生存分析介绍和文献解读

00:01:30 - 生存分析
00:04:36 - Kaplan-Meier生存分析
00:08:06 - meta--临床信息表格
00:13:48 - Cox回归
00:21:24 - 数据挖掘文章解读(GBM)
00:24:24 - 数据挖掘文章解读(OSCC)
00:35:52 - 数据挖掘文章解读(肺癌)
00:45:09 - 数据挖掘文章解读(黑色素瘤)


11-16-3 TCGA-文献解读和生存分析数据准备

00:00:51 - 胶质瘤 内质网应激相关基因
00:23:48 -肺癌 免疫浸润
00:25:33 -生存分析前的数据处理
00:46:50 - 答疑


11-18-1 TCGA-KMplot和对基因批量生存计算

00:01:06 - 本节课概览
00:03:50 - 生存分析
00:07:15 - KM-plot
00:11:50 - 连续变量离散化
00:23:37 - long-rank test
00:30:31 - 批量单因素cox
00:38:33 - 总结
00:40:18 - lasso回归


11-18-2 TCGA-lasso回归和多因素cox

00:01:42 - lasso模型预测和评估
00:06:10 - ROC曲线
00:12:00 - 切割数据构建模型并预测
00:17:47 - 切割数据
00:22:07 - 构建模型
00:22:43 - 模型预测
00:26:50 - 多因素cox
00:34:53 - 构建 coxph模型
00:39:15 - 逐步回归法
00:45:24 - 模型可视化--森林图
00:50:25 - 模型预测
00:54:29 - 切割数据验证模型


11-18-3 TCGA-其他模型和可视化

00:00:40 - 本节课概览
00:04:16 - 随机森林
00:09:25 - svm
00:14:28 - timeROC
00:21:06 - 三图联动三个图的含义
00:24:08 - 划分高低风险
00:25:50 - 风险因子三图联动
00:41:03 - 答疑


11-19-1 TCGA-文章图表复现-1

00:03:09 - 肺癌免疫浸润 文章解读
00:04:00 - 差异分析 富集分析 hub基因
00:15:50 - Hub基因的验证
00:20:28 - 生存分析
00:21:09 - 免疫分析
00:32:54 - Lasso和cox回归构建
00:46:02 - 模型可视化与GESA
00:48:54 - Riskscore和免疫浸润的关系
00:58:11 - tinyarray 代码简化操作


11-19-2 TCGA图表复现-2

00:00:30 - tinyarray 函数解释
00:03:38 - 本节课概览
00:05:02 - 文献复现-
00:05:02 - 下载数据
00:09:00 - 芯片表达矩阵行名转换
00:16:00 - 数据合并
00:19:35 - 批次效应处理
00:23:56 - 差异分析
00:25:40 - goplot富集分析与PPI网络
00:36:22 - hub基因的各种可视化


11-19-3 TCGA-文章图表复现-3

00:00:05 - 相关性热图
00:00:05 - 突变频谱图
00:03:05 - 7基因生存分析
00:11:57 - 免疫分析
00:12:28 - ssGSEA
00:15:54 - estimate
00:20:40 - 相关性热图
00:26:30 - 相关性图
00:28:12 - 模型构建
00:46:51 - 答疑


11-20-1 TCGA-突变数据分析

00:02:08 - riskstore与免疫
00:11:54 - 免疫数据验证
00:33:34 - 突变数据
00:58:50 - 突变数据添加分组信息(超级难)
01:02:06 - 突变特征


11-20-2 单细胞-基础流程和文献讲解

00:01:16 - 任意基因的分组比较
00:08:12 - 根据基因是否突变分组比较(跨组学)
00:14:51 - 两个基因表达量相关性
00:18:39 - 单细胞入门
00:21:09 - 单细胞入门文献 食管癌
00:34:17 - Seurat流程
00:39:59 - 读取数据
00:44:40 - 质控
00:45:23 - 过滤
00:53:00 - 寻找高变基因


11-20-3 单细胞-基础流程和文献代码复现

00:00:26 - 标准化 降维
00:03:51 - PCA
00:07:03 - UMAP
00:07:34 - 寻找marker基因
00:10:28 - 细胞类型注释
00:11:44 - 文献2 常规Seurat流程
00:16:40 - 文献3
00:27:02 - 文献2 代码复现
00:34:12 - monocle 和scater


11-20-4 数据挖掘结束语

00:00:33 - 数据技术在更新,但是基础基本不变
00:06:33 - 答疑

 

免费视频课程:#新课预售!#【生信技能树】TCGA肿瘤数据库知识图谱

配套文字版:jmzeng1314/tcga_example

公众号上有#TCGA系列文章

 

其他资源:

 

 

待续~

 

posted @ 2021-12-30 14:14  Life·Intelligence  阅读(2046)  评论(0编辑  收藏  举报
TOP