接受H0的坏处|试验误差|置信度由来|
摘要:生物统计与实验设计 置信度(0.05 0.01)是通过实验次数估计值的分布得到的,它是整个分布的期望,这个值的确立需要具体情况具体分析。 肯定很难,因为否定一次很容易。虽然如果没有否定(eg:得到p=0.03即服从0.01下的H0成立),但是仍存在0.01下H0不成立,从而在该置信度下接受H1假设。
阅读全文
group compare vs pair compare
摘要:成对总体检验是令y1=x11-x12;y2=x21-x22等,令新的随机变量y去做假设检验。此方法适用于排除物理因素影响,对差异更敏感,所以适用于小样本。而使用两个总体均值比较的方法适用于大样本。
阅读全文
两个总体的参数关系
摘要:区间估计 有偏或无偏是可以估计出来的,直接用公式计算得到。Eg:样本均值的均值是总体均值的无偏估计。总体离均差的均值是总体方差,但是样本离均差的均值不是总体方差的无偏估计,而样本方差是总体方差的无偏估计,所以采用样本方差计算总体方差。 当知道方差时,估计出的均值区间小,当不知道方差时,估计出的均值区
阅读全文
纳伪|去真
摘要:H0 真实正确却接受H1,即弃真的概率是α。因为设定小于α概率即是小概率事件,则小概率事件发生的概率是α,所以弃真的概率则是α。 H0 真实错误却接受H0;纳伪β 除非增大样本量,否则二者此消彼长。
阅读全文
Ho|H1|p-value|p值与U值|单侧检验
摘要:生物统计学 统计推断的过程: Ho:XXXX会发生 H1:XXXX不会发生 p:XXXX会发生的概率(概率计算过程),如果是小概率,则H0不可能发生,所以拒绝H0接受H1。 概率计算过程:先设定小概率事件发生概率α,计算得到p值(使用变量分布来计算),将α与p相比较,如果小于α则认定p是小概率,此事
阅读全文
统计分布近似转化
摘要:正态分布 两个变量独立与非独立情况下均值和方差不同: 独立则相关系数为0 近似条件图:
阅读全文
样本均值的标准误差|样本均值的标准差|总体标准差|样本标准差|简单随机抽样|样本均值估计|样本方差估计|
摘要:应用统计学 统计量与抽样分布 精确估计:当总体满足正态分布时。一个样本参数估计,估计总体均值时。 总体方差已知时,用样本均值满足抽样分布来估计,(其中,抽样分布是正态分布,抽样分布均值是总体均值,抽样分布方差是总体方差与样本数的比值)来估计,即如下式: 此方法的进阶版就是将样本均值写成Z分布形式,z
阅读全文
mode|平均数|方差|标准差|变异系数|四分位数|几何平均数|异众比率|偏态|峰态
摘要:应用统计学 数据的概括性度量 集中趋势 Mode众数是唯一描述无序类别数据,由图可知众数便是图形中的峰。 对于类别变量,众数就是某一种类别。 中位数和平均数都可能不是样本中的值。 中位数不受极值影响,对于类别数据来说,中位数是某一类别(同mode),各变量值与中位数的离差绝对值之和最小,与均数不同。
阅读全文
radar chart
摘要:多变量数据 雷达图radar chart 如上图可知,雷达图的缺点是看不清,此时可采用线性变换(相差小)or对数变换(相差大)的方法使得图像展开。 但是第一幅图用于比价种类比较鲜明,而第二幅图虽然比较个体很清楚却不能比较种类,所以图像服务于研究的问题。 同样的,对于不同坐标变量的选择使得图形有不同,
阅读全文
supervised learning|unsupervised learning
摘要:监督学习即是supervised learning,原始数据中有每个数据有自己的数据结构同时有标签,用于classify,机器learn的是判定规则,通过已成熟的数据training model达到判断新点类型的目的。 非监督学习即是unsupervised learning,原始数据中没有附加标签
阅读全文
无偏性|有效性|相合性|有方差的区间估计|无方差的区间估计|
摘要:生物统计与实验设计 三种评价标准 无偏性用来定性,保证估计量无方向性错误。即估计出的统计量的期望与该总体参数一致。 对于总体均值,矩估计和最大似然估计这两种方法得到的估计均值的期望与总体参数一致,是无偏的。对于总体方差,通过矩估计和最大似然估计这两种方法得到的估计出的参数方差的期望与总体方差不一致,
阅读全文
bubble chart|Matrix Scatter|Overlay Scatter|Scatterplots|drop-line|box plot|Stem-and-leaf plot|Histogram|Bar chart|Pareto chart|Pie chart|doughnut chart|
摘要:应用统计学 对类别数据要分类处理: Bar chart复式条形图便于对比: Pareto chart:对类别变量依据频数高低排列: Pie chart:饼图用于一个样本,可以区分类别数据 doughnut chart:环形图用于多个样本,可以区别类别数据 顺序数据:通过计算cumulative pe
阅读全文
中心极限定理|z分布|t分布|卡方分布
摘要:生物统计学 抽样分布:n个样本会得到n个统计量,将这n个统计量作为总体,该总体的分布即是抽样分布 根据辛钦大数定律,从一个非正态分布的总体中抽取的含量主n的样本,当n充分大时,样本平均数渐近服从正态分布。因此平均数的抽样分布对正态性的要求并不是十分严格,但方差的抽样分布,对总体的正态性的要求是十分严
阅读全文
伯努利大数定律|辛钦大数定律|全概率公式|贝叶斯公式|
摘要:恢复内容开始 生物统计学 古典概型: 理论上,在未得到试验结果之前可以根据实验条件,预先估计出来的所有可能结果称为样本空间,即为集合Ω。样本点w是Ω的一个元素。这是概率的古典定义,即依据事件本身特性,直接得到概率。这里得到的往往是先验概率。 随机事件是一个集合,是样本空间的一个子集。 必然事件是一个
阅读全文
CPU|MICGPU|FPGA|超算|Meta-data|
摘要:生物医学大数据: 收集数据后对数据的分析,如同看相,而对数据信息的挖掘可以看作是算命。这两个过程是基于算法和软件这类工具之上的。 在存储方面:在硬件上,为了Parallel computing的目的,刚开始选择的处理器是multiple core,之后选择many integrated core a
阅读全文
抽样分布|t分布|中心极限定理|点估计|矩估计|最大似然法|
摘要:生物统计与实验设计-统计学基础-2&区间估计-1 正态分布参数:均值和方差 其中,选择1d是因为好算;通常,95%区分大概率事件和小概率事件, 当总体是正态分布时,可以利用常用抽样分布估计出样本参数: 抽样分布是样本估计量是样本的一个函数,在统计学中称作统计量(这就是说,统计量由样本值计算得到),因
阅读全文
数据挖掘|统计的艺术
摘要:生物统计预实验设计-主要概念和内容 统计(statistics)一词来源于State政府,因为最早通常是政府利用统计学来统计数据。 我们在使用统计学工具时,需要从科学和艺术的角度思考它和研究内容的契合度。 统计学不仅仅是科学还是艺术,它是科学这一点毋庸置疑,它的艺术体现在数据和人的不确定上,数据永远
阅读全文
变量类型|数据类型|统计特征|
摘要:生物统计学-描述统计 首先必须明确:生物实验的总体是无穷个,而研究人员做生物实验得到的数据永远是样本。因为不同类别的变量指向不同的统计方法,所以必须首先明确变量类型。 变量类型有: 其中,类别变量的本质是字符串,数值变量的本质是数值型,所以,虽然有些类别变量表现为数字,但将它们做运算的结果是没有任何
阅读全文
一次数据库|二次数据库|
摘要:生物医学大数据-组学数据资源 困境: 经过human genome project之后得到了Book of life,但是测得base仅仅是生物信息学分析的开始,因为发现了数据的几个重要特点。首先是数据量过大,虽然科学家想通过不同组学角度(组学也随着数据量的增多层层细化和深入)来简化和系统解读过程,
阅读全文
SAGE|DNA微阵列|RNA-seq|lncRNA|scripture|tophat|cufflinks|NONCODE|MA|LOWESS|qualitile归一化|permutation test|SAM|FDR|The Bonferroni|Tukey's|BH|FWER|Holm's step-down|q-value|
摘要:生物信息学-基因表达分析 为了丰富中心法则,研究人员使用不断更新的技术研究lncRNA的方方面面,其中技术主要是生物学上的微阵列芯片技术和表达数据分析方法,方方面面是指lncRNA的位置特征。 Background:根据中心法则,发现DNA与RNA与protein之间的关系,此时认为找到的RNA全部
阅读全文