摘要: 生物信息的工具和数据库太多,但有一些基础的工具是必须精通的,甚至需要经常翻阅寻找灵感。 通用数据库: UCSC Genome Browser - 基因组的可视化 OMIM - Online Mendelian Inheritance in Man - 研究疾病必备 专业数据库汇总: 单细胞数据库汇总阅读全文
posted @ 2019-05-10 01:31 Life·Intelligence 阅读(35) 评论(0) 编辑
摘要: 一文包含所有:Probability concepts explained: Bayesian inference for parameter estimation. 贝叶斯并不难,关键是要能熟能生巧,熟练运用在生活各个方面,应用到各个项目。 最近发现遗传领域用贝叶斯实在是太普遍了,不得不再温习一遍阅读全文
posted @ 2018-04-05 11:33 Life·Intelligence 阅读(1788) 评论(0) 编辑
摘要: Differential gene expression analysis:差异表达基因分析 Differentially expressed gene (DEG):差异表达基因 Volcano Plot:火山图 差异倍数(fold change) fold change翻译过来就是倍数变化,假设A阅读全文
posted @ 2017-08-16 12:08 Life·Intelligence 阅读(30166) 评论(0) 编辑
摘要: 如果你的职业定位是数据分析师/计算生物学家,那么不懂PCA、t-SNE的原理就说不过去了吧。跑通软件没什么了不起的,网上那么多教程,copy一下就会。关键是要懂其数学原理,理解算法的假设,适合解决什么样的问题。 学习可以高效,但却没有捷径,你终将为自己的思维懒惰和行为懒惰买单。 PCA的原理和普通实阅读全文
posted @ 2017-02-16 10:49 Life·Intelligence 阅读(29376) 评论(0) 编辑
摘要: 最初是看到这个网站,决心把所有统计分布梳理一遍:Univariate distribution relationships - WM 伯努里分布 | Bernoulli distribution 二项分布 | Binomial distribution Βeta分布 | beta distribut阅读全文
posted @ 2017-01-11 21:08 Life·Intelligence 阅读(1502) 评论(0) 编辑
摘要: 这个时代已经是多学科相互渗透的时代,纯粹的传统学科在没落,新兴的交叉学科在不断兴起。 life science neurosciences statistics computer science information theory 我的问题很简单: 想回答这些问题就必须要学习信息论! 什么是信息?阅读全文
posted @ 2019-05-20 01:02 Life·Intelligence 阅读(10) 评论(0) 编辑
摘要: The Lady Tasting Tea - How Statistics Revolutionized Science in the Twentieth Century 本书只讨论了20世纪这100年间的统计大变革。 一般的书读读就行,唯独这本书需要慢慢品读,让统计的思想深入骨髓。 需要做的事: 阅读全文
posted @ 2019-05-19 16:15 Life·Intelligence 阅读(11) 评论(0) 编辑
摘要: 单细胞技术在飞速发展,随着数据的积累,对应的数据库也相应出现。 CellMarker - 总结了目前的celltype对应的marker,同时给出了数据的文献链接。Mouse Cell Atlas - 2017年Nature文章,相当于把整个小鼠都测了,得到了一大堆的10x数据,郭国冀。Pangla阅读全文
posted @ 2019-05-18 19:24 Life·Intelligence 阅读(13) 评论(0) 编辑
摘要: clusterProfiler没有显性的接口,但是可以直接扣取clusterProfiler里的函数。 核心函数就是get_GO_data 可以看到输入的是GO数据库,选定类别,基因名字类型,输出的就是整个数据库。 但是想调用这个函数没那么简单,得导入一系列的基础函数。 一个常见的任务就是获取GO数阅读全文
posted @ 2019-05-18 18:45 Life·Intelligence 阅读(25) 评论(0) 编辑
摘要: 什么是定理,什么是公理? 定理:已证实。对于全部情形都得到了证明。公理:未证伪。无法穷举全部情形,但尚未发现反例。 大数定律 | law of large numbers 随着试验数量的增大,样本中随机变量的均值会无限趋近与理论上的期望。 大数定律是现代统计的基石。 应用:抽样中用样本估计总体的理论阅读全文
posted @ 2019-05-18 17:33 Life·Intelligence 阅读(5) 评论(0) 编辑
摘要: Genome Aggregation Database (gnomAD) 这是一个关于什么的数据库?broad institute开发的,整合了目前几乎所有的公共的WES和WGS测序数据,并对数据做了一些总结,可供其他开发者使用。 怎么使用gnomAD? 查感兴趣的基因 查感兴趣的variant 参阅读全文
posted @ 2019-05-17 22:18 Life·Intelligence 阅读(5) 评论(0) 编辑
摘要: Laplacian和PCA貌似是同一种性质的方法,坐标系变换。 最近在看SC3聚类这篇文章,SC3使用了这个工具。 SC3: consensus clustering of single-cell RNA-seq data All distance matrices are then transfo阅读全文
posted @ 2019-05-17 01:27 Life·Intelligence 阅读(12) 评论(0) 编辑
摘要: 一个专门讲聚类的网页课程 - Alexander Strehl 2002-05-03 值得借鉴的一个工具:SC3: consensus clustering of single-cell RNA-seq data 1. 如何在一个模型里整合多种距离度量; 2. 方法的数学化; 可行性分析 假设 连续阅读全文
posted @ 2019-05-16 22:30 Life·Intelligence 阅读(21) 评论(0) 编辑
摘要: Common sense reduced to computation - Pierre-Simon, marquis de Laplace (1749–1827) Inventor of Bayesian inference 贝叶斯方法的逻辑十分接近人脑的思维;人脑的优势不是计算,在纯数值计算方面阅读全文
posted @ 2019-05-15 23:52 Life·Intelligence 阅读(28) 评论(0) 编辑
摘要: 学贝叶斯方法时绕不过去的一个问题,现在系统地总结一下。 之前过于纠结字眼,似然和概率到底有什么区别?以及这一个奇妙的对等关系(其实连续才是f,离散就是p)。 似然函数 | 似然值 wiki:在数理统计学中,似然函数是一种关于统计模型中的参数的函数,表示模型参数中的似然性。 这里我们讨论的范围已经界定阅读全文
posted @ 2019-05-15 21:11 Life·Intelligence 阅读(19) 评论(0) 编辑
摘要: 搞科研,尤其是生命科学,经常会觉得自己做的东西是坨屎,没有任何意义。 在硕博的时候这种感觉会非常强烈,一个是自己思考能力不足;二是你的项目不是你设计的,不懂个中缘由,只执行的话就会很无聊,找不到意义感。 为什么我们的研究问题必须有意义? 实际上所有的研究问题都是有意义的,单调地重复别人的研究、在混乱阅读全文
posted @ 2019-05-15 18:12 Life·Intelligence 阅读(11) 评论(0) 编辑
摘要: 先开题,慢慢补充。 参考: 什么是响应面(RSM)分析 Response-Surface Methods in R, Using rsm In-class Examples with R Code Response Surface Analysis (RSM) Lesson 11: Response阅读全文
posted @ 2019-05-15 17:31 Life·Intelligence 阅读(7) 评论(0) 编辑
摘要: 吲哚是啥?在茶叶成分中的地位?乌龙茶?香气,重要的前体,比如色氨酸Trp、IAA。 Indole is a characteristic volatile constituent in oolong tea. Our previous study indicated that indole was 阅读全文
posted @ 2019-05-15 16:30 Life·Intelligence 阅读(12) 评论(0) 编辑
摘要: 前言 做RNA-seq基因表达数据分析挖掘,我们感兴趣的其实是“基因互作”,哪些基因影响了我们这个基因G,我们的基因G又会去影响哪些基因,从而得到基因调控的机制。 直觉确实是很明确的,但是细节处却有很多问题。 我们讨论的到底是基因表达的互作,还是基因产物的互作? 对于蛋白编码基因,它翻译产生蛋白,如阅读全文
posted @ 2019-05-15 13:34 Life·Intelligence 阅读(52) 评论(0) 编辑
摘要: 主要会用到两个R包: rentrez: 'Entrez' in Rscholar: Analyse Citation Data from Google Scholar 目的1:输入检索词,从GSE数据库中爬取附带的参考文献。阅读全文
posted @ 2019-05-14 11:22 Life·Intelligence 阅读(10) 评论(0) 编辑
摘要: 之前我有过一篇16s基本概念和数据分析的文章。16S 基础知识、分析工具和分析流程详解 可以分成两部分,生物层面和技术层面。 生物层面: 1. 肠道微生物里面包含了哪些微生物?显然包含了所有层面的微生物:细菌、古细菌和真菌。 2. 肠道微生物是如何从母体遗传向下一代的?成熟的肠道微生物群体是如何逐步阅读全文
posted @ 2019-05-12 14:37 Life·Intelligence 阅读(18) 评论(0) 编辑
摘要: 太重要了,不得不单独拿出来分析一下。本review高度总结了GWAS这10年的成绩、以及现在的局限性。每个搞统计遗传的都必须要好好看看。 第一篇GWAS是什么时候?谁提出的?The first successful GWAS published in 2002 studied myocardial 阅读全文
posted @ 2019-05-11 15:00 Life·Intelligence 阅读(38) 评论(0) 编辑
摘要: 这个时代的生信,统计遗传,不懂或不会用这个数据库就说不过去了。 看看10年GWAS里是如何定位和评价UK biobank的: For the near future, the UK Biobank is pushing the barriers further by releasing both g阅读全文
posted @ 2019-05-11 14:42 Life·Intelligence 阅读(46) 评论(0) 编辑
摘要: 生物信息的工具和数据库太多,但有一些基础的工具是必须精通的,甚至需要经常翻阅寻找灵感。 通用数据库: UCSC Genome Browser - 基因组的可视化 OMIM - Online Mendelian Inheritance in Man - 研究疾病必备 专业数据库汇总: 单细胞数据库汇总阅读全文
posted @ 2019-05-10 01:31 Life·Intelligence 阅读(35) 评论(0) 编辑
摘要: 从生物体中采集的数据总给人一种混乱不堪的感觉,因为生命系统本来就是一个超级复杂的系统,我们很难完全控制,目前只能观测。 完全不像物理化学数学那么明确,1就是1,2就是2. 所以在分析生物数据时,首先必须要了解数据。 在几个案例中阐述会比较明朗: 1. 人的单细胞转录组数据 测的是iPSC-deriv阅读全文
posted @ 2019-05-10 01:17 Life·Intelligence 阅读(26) 评论(0) 编辑
TOP