摘要: 二项分布 | Binomial distribution 泊松分布 | Poisson Distribution 正态分布 | Normal Distribution | Gaussian distribution 负二项分布 | Negative binomial distribution 指数分阅读全文
posted @ 2017-01-11 21:08 Bioinformatics 阅读(1379) 评论(0) 编辑
摘要: graph to tree非常有趣! 距离的度量会极大地影响后续的分析,欧式距离会放大差异,相关性会缩小差异,导致某些细胞群分不开。 先直观看一下,第一个是Prim,第二个是Kruskal。但是肯定都是有局限性的!我也在尝试新的方法,提升表现。 先看看算法的差异: 参考: 话说最小生成树的prim算阅读全文
posted @ 2019-04-17 18:08 Bioinformatics 阅读(4) 评论(0) 编辑
摘要: STRING database的挖掘 这个数据库绝对是做实验人的宝藏,里面包含了各种蛋白互作关系,不用做实验就有一大堆证据。 IPA了解一下,收费的高端分析软件,大部分就是整合的这个数据库,很多大佬喜欢用IPA来找明星基因,再来讲故事,实例请看之前解读的CSC paper。 首先了解一下STRING阅读全文
posted @ 2019-04-17 13:09 Bioinformatics 阅读(8) 评论(0) 编辑
摘要: Finding Enriched Motifs in Genomic Regions (findMotifsGenome.pl) 在指定区域做motif enrichment,大大降低了假阳性。 MEME也可以做,但是设定更加复杂。 转录因子的表达具有高度的组织特异性,而且已知的TF只有1000多个阅读全文
posted @ 2019-04-17 12:49 Bioinformatics 阅读(14) 评论(0) 编辑
摘要: 作业: 1) A plot of data from a time series, which shows a cyclical pattern – please show a time series plot and identify the length of the major cycle. 阅读全文
posted @ 2019-04-16 14:29 Bioinformatics 阅读(9) 评论(0) 编辑
摘要: 练了3-4个小时,最好的成绩只有2'09多,这5秒真的很难跨越,很是绝望,感觉碰到瓶颈了。 看了几个视频,发现大家的走线有些差异,但是切apx的极速都是一样的,所以在复合弯道,走线其实不止一种。 分析一下我的瓶颈: 对赛道了解不够,没有真正理解某些复杂弯道,走线错误;(走线错了速度肯定上不去) 对车阅读全文
posted @ 2019-04-09 20:54 Bioinformatics 阅读(16) 评论(0) 编辑
摘要: 可行性分析 假设: 连续性 - 与clustering的假设正好相反 分支事件 特征的选择;距离的度量; 限定KNN的必要性; MST构建; 主支的构建和简化;省略中间点;最短路径; 迭代处理所有分支;统计 投射所有细胞;使用longest branch root the tree; 相对主线的深度阅读全文
posted @ 2019-04-09 16:16 Bioinformatics 阅读(8) 评论(0) 编辑
摘要: P133,这是第二次作业,考察多重线性回归。这个youtube频道真是精品,用R做统计。这里是R代码的总结。 连续变量和类别型变量总要分开讨论; 多重线性回归可以写成矩阵形式的一元一次回归;相当于把多变量当成列向量压缩一下;矩阵有着非常优美的简单的计算法则,大大简化了计算的复杂度; 在建多重线性回归阅读全文
posted @ 2019-04-09 15:05 Bioinformatics 阅读(51) 评论(0) 编辑
摘要: 文献编号:19Mar - 11 2019年04月01日再读;精读; 已经发现我的data没法在PCA里有明显的规律;应该可以直接从bulk RNA-seq里获取有价值的信息,那么single cell到底有什么优势呢?回答:单细胞的数据是必须的,它可以把core genes锚定到case-contr阅读全文
posted @ 2019-04-01 22:12 Bioinformatics 阅读(47) 评论(0) 编辑
摘要: P122, 这是IQR method课的第一次作业,需要统计检验,x和y是否显著的有线性关系。 入门:散点图、线性拟合、拟合参数slope 进阶:统计检验,多重矫正FDR 基本概念: 这和基本的代数一样,只是统计更加严谨,把误差纳入到模型中了。 怎么估计A和B呢? A和B可以看做是群体的参数,a和b阅读全文
posted @ 2019-04-01 13:39 Bioinformatics 阅读(117) 评论(0) 编辑
摘要: 刚看完F1巴林站比赛,23点到1点,整整两个小时,比赛相当精彩。 从排位赛结果看,法拉利似乎肯定包揽1-2名,可惜天公不作美,今晚风大、沙多;vettel自己失误,鼻翼掉了,还在被汉密尔顿超车的时候自己打滑,直接跌出了前4; 勒克莱尔更是乐极生悲,50几圈的时候涡轮爆了,每圈就慢了5秒,直接被梅奔两阅读全文
posted @ 2019-04-01 01:19 Bioinformatics 阅读(24) 评论(0) 编辑
摘要: 参考:GT sport所有赛道简介 今天的心情变化挺大,从绝望放弃到豁然开朗。 前言:GT sport有个排位赛,是每位sim赛车手提升自己等级的唯一途径,其中一个排位赛就是龙之径II(逆时针跑),我跑了大概有两天,都没有什么收获,一度觉得自己真的没有什么赛车天赋,绝望到想删游戏。 因为已经参加过几阅读全文
posted @ 2019-03-31 22:28 Bioinformatics 阅读(32) 评论(0) 编辑
摘要: final model for bioinformatics 模拟真实的生物系统,从有机分子到细胞,到组织,到器官,到个体,到家系,到群体。 正确的设计结构,可拓展性,可塑性。 良好的可视化。 面向对象的编程,游戏引擎。 基因结构class 细胞结构class 组织结构class 个体结构class阅读全文
posted @ 2019-03-29 16:34 Bioinformatics 阅读(8) 评论(0) 编辑
摘要: 原理 比较两组就用t-test,比较三组及以上就用ANOVA。注意:我们默认说的都是one way ANOVA,也就是对group的分类标准只有一个,比如case和control(ABCD多组),two way就是分类标准有多个,比如case or control,male or femal。 方差阅读全文
posted @ 2019-03-27 17:24 Bioinformatics 阅读(46) 评论(0) 编辑
摘要: 参考:GT sport所有赛道简介 GT Sport - Tip/Guide For FASTER LAP TIMES (Brands Hatch) 赛道介绍、跑法、赛事网上都有大把的视频。 GT sport里的实存赛道,最有名的应该是Nürburgring纽博格林了,这次要分析的是伯蘭士赫治赛道,阅读全文
posted @ 2019-03-27 13:29 Bioinformatics 阅读(24) 评论(0) 编辑
摘要: 参考:Add P-values and Significance Levels to ggplots 多组比较,挑选感兴趣的显示显著性。 还可以设定一个ref group来显示显著性差异,只需要改一下设定。 生物学的强烈推荐看看Y叔的公众号里的统计相关的文章,非常的基础和实用。 统计 Five th阅读全文
posted @ 2019-03-26 10:59 Bioinformatics 阅读(49) 评论(0) 编辑
摘要: sorry,玩了几天的GT sport才发现赛车有多难,理论的最佳走线是存在的,但是真实的赛道实在是千变万化,弯道形状角度、高低差、F1还有温度和风速,甚至是路面上的一个碎石都会极大地影响你的成绩。赛车的不确定性太大,玩了这么几天发现,只有提高自己的技艺才能减少这种不确定性。极限是存在的,如何控制住阅读全文
posted @ 2019-03-19 12:35 Bioinformatics 阅读(56) 评论(0) 编辑
摘要: 2019年03月15日 这两天MBBS监考,为了克服无聊,在监考期间开始了踱步漫想,整理脑中的碎片知识,再次深刻理解了孔夫子的那句话:学而不思则罔,思而不学则殆。 大学硕士博士期间都学过统计,但总感觉统计十分陌生,自认为根本就不理解统计的精髓,一旦到了应用时,心理就犯怯。理解不深主要是学和思都不够。阅读全文
posted @ 2019-03-15 14:56 Bioinformatics 阅读(38) 评论(0) 编辑
摘要: 搞统计的线性代数和概率论必须精通,最好要能锻炼出直觉,再学机器学习才会事半功倍。 线性代数只推荐Prof. Gilbert Strang的MIT课程,有视频,有教材,有习题,有考试,一套学下来基本就入门了。 不多,一共10次课。 链接:https://ocw.mit.edu/courses/math阅读全文
posted @ 2019-03-11 20:49 Bioinformatics 阅读(42) 评论(0) 编辑
摘要: 转自:http://www.matrix67.com/blog/archives/105 这或许是众多OIer最大的误区之一。 你会经常看到网上出现“这怎么做,这不是NP问题吗”、“这个只有搜了,这已经被证明是NP问题了”之类的话。你要知道,大多数人此时所说的NP问题其实都是指的NPC问题。他们没有阅读全文
posted @ 2019-03-11 18:16 Bioinformatics 阅读(18) 评论(0) 编辑
摘要: paper:A Complete Electron Microscopy Volume of the Brain of Adult Drosophila melanogaster 果蝇是一个非常完美的研究大脑的模式动物,10万级的神经元却已经形成了较为复杂的智能行为,这远比直接研究1000亿级的人类阅读全文
posted @ 2019-03-11 15:32 Bioinformatics 阅读(40) 评论(0) 编辑
TOP