教小高改bug

  博客园 :: 首页 :: 博问 :: 闪存 :: :: 联系 :: :: 管理 ::

这是一篇非肿瘤零代码数据挖掘,2020年最新发表的文章,这篇文章发表在Frontiers in Endocrinology ,2021年IF为6.055,较去年上升0.5分。

题目:Bioinformatic Analysis Identifies Potential Key Genes in the Pathogenesis of Turner Syndrome,一篇turner综合征的文章,疾病很小众。

拆解题目

先来看一下题目,疾病是turner综合征,问题则是找到寻找疾病发病机制中的关键基因(marker?)。文章比较简单,作者只用了一个数据集GSE46687,我们不妨来换位思考一下,如果我们是作者,我们会做些什么内容呢?既然是非肿瘤,那临床意义部分就做不了吧(确实如此吗?)而“挑圈联”中,最好去扩展提升文章深度的内容是那一部分呢?没错,就是联!分子交互的内容是最容易上手去拓展文章深度的部分,最广为人知的例子就是多组学,多组学就是多个层次的数据进行交互,把多个层次的数据当成多个分子,那不就还是“联”?在科研领域里,举一反三很重要,数据挖掘中千万不要变成数据的奴隶,跳出来高屋建瓴结合医学背景知识才是我们医生打开数据挖掘的正确方式。

研究背景

Turner综合征(TS)是一种以女性X染色体完全缺失或部分丢失为特征的疾病(唯一已知的性染色体单体病),症状包括身材矮小、卵巢衰竭和骨骼异常等。目前TS的病因复杂,发病机制尚不清楚。有研究表明,女性TS(45,X单体型)常染色体基因和chrX基因在人成纤维细胞系、外周血单个核细胞以及诱导的多能人细胞系中的表达均发生改变,但结果不一致。因此作者使用GSE46687进行分析,试图找到TS发病过程中的关键基因。

作者从GEO中找到了GSE46687,数据集包括36例样本,其中16例TS患者被证实具有母系遗传的X染色体(45,XM),10例TS患者被证实具有父系遗传的X染色体(45,XP),10例正常女性(46,XX),但是最大的限制是作者没有获取到临床数据(这是大部分GEO数据集的悲伤啊!)接着使用GEO2R来进行差异表达分析,比较X染色体单体型和正常组之间的表达谱,使用阈值为|log2 FC| >1 和 adj.p-value < 0.05。结果表示:在XM TS患者和正常人之间,总共鉴定出42个上调基因和91个下调基因。在XP TS患者和正常人之间发现了279个上调基因和234个下调基因,然后画一个Venn图展示下两份结果的交集,得到25个上调基因和60个下调基因:

文章作者对于表格的展示方式:

 

这篇文章作者的分析虽然简单,但是很多细节值得我们学习,比如这个Table 1,作者并没有把两份结果分成两个表格进行展示,而是直接合并在一起,分别展示一个基因在两份结果中的p值和logFC,不仅节省了表格数量,还丰富了表格内容,这样的排版风格,简单易上手又好用。

在进行表达差异之后,作者并没有直接使用DEGs进行富集分析,而是又展示了一个细节操作,寻找基因的组织特异性表达,作者使用BioGPS(http://biogps.org) 来分析DEGS的组织特异性表达,筛选的标准为:(1)组织特异性表达水平>中位数的10倍,以及(2)第二高表达水平不到最高水平的三分之一。结果鉴定了23个在特定组织或器官系统中表达的基因。组织特异性最强的表达系统是血液/免疫系统(69.6%,16/23),其次是神经系统和皮肤/骨骼肌系统 (8.7%,2/23),而呼吸系统、消化系统和循环系统最低(4.3%,1/23):

作者为什么要进行这个操作呢?当然是为了弥补由于临床资料缺失而带来的缺陷啦!特纳综合征是一种全身性疾病,各个系统都会出现相应的症状,为了联系临床,作者探讨了各个组织特异性表达的基因,以此鉴定哪些基因可能与特定症状有关,从而展开讨论。你看,巧妙吧?没有临床数据,那就从症状入手,这是我们医生的强项嘛!

接着作者富集分析部分比较常规,使用DAVIDs (https://david.ncifcrf.gov/tools.jsp)进行富集分析,然后显示11个功能最显著的富集分析结果进行展示,看图片应该是利用Excel画的柱状图:

作者接着使用STRING数据库(https://string-db.org/)进行分子交互网络也就是PPI网络的构建,设置阈值为interaction score >0.4,得到交互信息之后使用Cytoscape进行网络构建和美化,那如果为了识别关键模块或者关键基因,你们会用什么插件呢?Mcode?cytohubba?作者用了另外一个插件——ClusterOne,对网络再进行聚类分析,识别出P<0.05的关键模块:

在网络中,红色代表上调基因,绿色代表下调基因,而ClusterOne识别出具有一个上调基因(UBE2O)和七个下调基因(CDC27、HECTD1、JAK1、ASMTL、CD99、SLC25A6和CSF2RA)的两个关键子模块,此外顺带把这8个基因可能参与的功能也进行了富集。

挑圈连有了,你以为这个文章就结束了吗?能发到2区杂志的作者怎么可能让我们轻易猜透呢?作者接着又鉴别了兴趣基因,怎么做呢?前面作者不是做了PPI网络识别出了关键基因吗?而组织特异性表达中也选择了一部分参与免疫的兴趣基因,最后再使用GeneCards数据库鉴定另外三个兴趣基因UBE2O、HECTD1和CSF2RA,最终展示这些基因的FC值和以及他们表达特异性较高的组织:

作者这样展示,一下子挑、圈、联三部分结果合并展示出来,整个表格的内容看起来比单纯展示基因名称丰富多了。

到此为止,这个文章就真的结束了,其实这个文章分析虽然简单,但是满满是细节,细节决定了它可以发在二区杂志,首先TS是一个罕见病,其次分析完整,挑圈联三个齐全,最后紧密结合疾病特征设计出了很多小细节。我个人认为这才是临床医生进行生信分析的正确打开方式,尤其非肿瘤方向。从这个文章我们可以看到,非肿瘤方向的分析策略要比肿瘤方向简单得多。相同的数据分析套路,找到合适的数据集,增加一些细节的处理,往往会发到比较理想的分数。

 经常人说非肿瘤数据挖掘太难了,没有肿瘤方向的好发文章,其实不是的,只要切入点好,就算只有一个数据集,也能发出一个好文章,关键还不用像肿瘤方向一样来很多高大上的分析,如果肿瘤方向和这个文章做一样的分析,没有其他东西,发都不一定发的出去。

 

生信非肿瘤的文章推荐:

1. 题目:STAT1 and its related molecules as potential biomarkers in Mycobacterium tuberculosis infection

期刊名称:J Cell Mol Med

影响因子:4.658

发表年份:2020

 

2. 题目:Integrative analyses of genes associated with idiopathic pulmonary fibrosis

期刊名称:J Cell Biochem

影响因子:3.45

发表年份:2018

 

3. 题目:Bioinformatic Analysis Identifies Potential Key Genes in the Pathogenesis of Turner Syndrome

期刊名称:Frontiers in Endocrinology

影响因子:3.63

发表年份:2020

 

4. 题目:A comprehensive bioinformatics analysis on multiple Gene Expression Omnibus datasets of nonalcoholic fatty liver disease and nonalcoholic steatohepatitis

期刊名称:Scientific Reports

影响因子:4.01

发表年份:2018

 

5. 题目:Identification of diagnostic markers for major depressive disorder by cross-validation of data from whole blood samples

期刊名称:Peer J

影响因子:2.35

发表年份:2019

 

6. 题目:Immune cell infiltration characteristics and related core genes in lupus nephritis: results from bioinformatic analysis

期刊名称:BMC Immunology

影响因子:2.65

发表年份:2019

 

7. 题目:Identification ofPotential Biomarkers and Biological Pathways in Juvenile Dermatomyositis Based on miRNA-mRNA Network

期刊名称: Biomed Res Int

影响因子:2.197发表年份:2020

 

8. 题目:Potential protein biomarkers for systemic lupus erythematosus determined by bioinformatics analysis.

期刊名称:Comput Biol Chem

影响因子:1.581

发表年份:2019

 

9. 题目: Integrated Bioinformatics Analysis for the Identification of Key Molecules and Pathways in the Hippocampus of Rats After Traumatic Brain Injury

期刊名称:Neurochem Res

影响因子:2.782

发表年份:2020

 

10. 题目:Identification of Key Genes and the Pathophysiology Associated With Major Depressive Disorder Patients Based on Integrated Bioinformatics Analysis

期刊名称:Frontiers in Psychology

影响因子:2.4

发表年份:2019

 

11. 题目:a temporal transcriptome and methylome in human embryonic stem cell-derived cardiomyocytes identifies novel regulators of early cardiac development

期刊名称:epigenetics

影响因子:4.73

发表年份:2018

 

12. 题目:A Systems Biology Approach Uncovers Cell-Specific Gene Regulatory Effects of Genetic Associations in Multiple Sclerosis

期刊名称:Nat Commun

影响因子:11.878

发表年份:2019

 

13. 题目:Identification of Susceptibility Modules and Genes for Cardiovascular Disease in Diabetic Patients Using WGCNA Analysis.

期刊名称:J Diabetes Res

影响因子:3.04

发表年份:2020

 

14. 题目:LncRNAs related key pathways and genes in ischemic stroke by weighted gene co-expression network analysis (WGCNA).

期刊名称:Genomics

影响因子:3.5

发表年份:2020

 

15. 题目:Integrated bioinformatics analysis identifies microRNA-376a-3p as a new microRNA biomarker in patient with coronary artery disease

期刊名称:Am J Transl Re

影响因子:3.266

发表年份:2017

 

16. 题目:Genome-wide Analysis of Dental Caries and Periodontitis Combining Clinical and Self-Reported Data

期刊名称:Nat Commun

影响因子:11.878

发表年份:2019

 

17. 题目:Bioinformatic analysis reveals the importance of epithelial-mesenchymal transition in the development of endometriosis.

期刊名称:Sci Rep

影响因子:4.011

发表年份:2020

 

18. 题目:Whole blood vs PBMC: compartmental differences in gene expression profiling exemplified in asthma

期刊名称:0.644

影响因子:Allergy Asthma Clin Immunol

发表年份:2019

 

19. 题目:Elucidating the molecular pathways and immune system transcriptome during ischemia-reperfusion injury in renal transplantation

期刊名称:3.361

影响因子:Int. Immunopharmacol

发表年份:2020

 

20. 题目:Identification of Immune Cell Landscape and Construction of a Novel Diagnostic Nomogram for Crohn's Disease.

期刊名称:Front Genet

影响因子:3.517

发表年份:2020

 

21. 题目:Identification of molecular correlations of RBM8A with autophagy in Alzheimer's disease

期刊名称:5.551

影响因子:Aging

发表年份:2019

 

22. 题目:Clinical Evidence Supports a Protective Role for CXCL5 in Coronary Artery Disease

期刊名称:3.762

影响因子:Am. J. Pathol

发表年份:2020

 

23. 题目:Bioinformatics Analysis of Genetic Variants of Endoplasmic Reticulum Aminopeptidase 1 in Ankylosing Spondylitis

期刊名称:Mol Med Rep

影响因子:1.851

发表年份:2017

 

24. 题目:Assessment and diagnostic relevance of novel serum biomarkers for early decision of ST-elevation myocardial infarction

期刊名称:60359

影响因子:Oncotarget

发表年份:2015

 

25. 题目:Several critical genes and miRNA associated with the development of PCOS

期刊名称:Ann Endocrinology

影响因子:1.43.

发表年份:2020

 

26. 题目:Whole-exome sequencing in the evaluation of fetal structural anomalies: a prospective cohort study

期刊名称:Lancet

影响因子:59.102

发表年份:2019

 

27. 题目:Exploring the Active Compounds of Traditional Mongolian Medicine in Intervention of Novel Coronavirus (COVID-19) Based on Molecular Docking Method.

期刊名称:journal of functional foods

影响因子:3.197

发表年份:2020

 

28. 题目:Multiple-microarray Analysis for Identification of Hub Genes Involved in Tubulointerstial Injury in Diabetic Nephropathy

期刊名称:J Cell Physiol

影响因子:4.522

发表年份:2019

 

29. 题目:Polycystic Ovary Syndrome: Novel and Hub lncRNAs in the Insulin Resistance-Associated lncRNA-mRNA Network.

期刊名称:Frontiers in genetics

影响因子:3.57

发表年份:2019

 

30. 题目:Large-Scale Exome Sequencing Study Implicates Both Developmental and Functional Changes in the Neurobiology of Autism

期刊名称:cell

影响因子:32

发表年份:2020

 

31. 题目:Metformin Alters the Gut Microbiome of Individuals With Treatment-Naive Type 2 Diabetes, Contributing to the Therapeutic Effects of the Drug

期刊名称:Nat Med

影响因子:30.641

发表年份:2017

 

32. 题目:Genome-wide Association Analysis of Common Genetic Variants of Resistant Hypertension

期刊名称:Pharmacogenomics J

影响因子:3.503

发表年份:2019

 

33. 题目:Arginine Deficiency Is Involved in Thrombocytopenia and Immunosuppression in Severe Fever With Thrombocytopenia Syndrome

期刊名称:Sci Transl Med

影响因子:17.161

发表年份:2018

 

34. 题目:Modulation of Blood Inflammatory Markers by Benralizumab in Patients With Eosinophilic Airway Diseases

期刊名称:Respir Res

影响因子:3.829

发表年份:2019

 

35. 题目:Integrated Bioinformatics Analysis of the Osteoarthritis‑associated microRNA Expression Signature

期刊名称:Mol Med Rep

影响因子:1.851

发表年份:2018

 

36. 题目:A Meta-Analysis of Dysregulated miRNAs in Coronary Heart Disease

期刊名称:Mol Med Rep

影响因子:1.851

发表年份:2018

 

37. 题目:Bioinformatics Analysis of CYP1B1 Mutation Hotspots in Chinese Primary Congenital Glaucoma Patients

期刊名称:Biosci Rep

影响因子:2.535

发表年份:2018

 

原文链接

posted on 2023-02-17 00:38  小高不高  阅读(234)  评论(0编辑  收藏  举报