缺失值|回归分析|协变关系|
摘要:生物统计与实验设计 不能达到所有样本都是同一条件,所以假设检验条件严格。缺失值弥补,误差的平方和最小。 使得SE最小,令导数为零。但是不推荐使用,违背生物学原则。有一点必须明确,缺失数据估计并不能恢复原来的数据,只能是补足后不致于干扰其余数据,估计的数据并不能提出任何新的信息,因此,试验中应尽量避免
阅读全文
PCA|factor extraction|CA
摘要:PCA:主成分分析 相关矩阵,找特征值,找每个特征值对应特征向量,即组成主组成式子: 每个式子指向一个结果y,找一条线将这些y分开。有11个变量就有11个新坐标轴,通过点到直线距离来区分。 信息必须集中在前几个主成分上。比如PC1表示3个变异。 主成分分析的前提是原始数据不能不同x指向同一个y。 主
阅读全文
k-means|k-mode|k-prototype|PAM|AGNES|DIANA|Hierarchical cluster|DA|VIF|
摘要:聚类算法: 对于数值变量,k-means eg:k=4,则选出不在原数据中的4个点,计算图形中每个点到这四个点之间的距离,距离最近的便是属于那一类。标准化之后便没有单位差异了,就可以相互比较。 对于分类变量,k-mode: 对于数值和分类变量:k-prototype 连续变量与分类变量的权重,K=1
阅读全文
Jarque-Bera test|pp图|K-S检验|
摘要:Jarque-Bera test: 如何绘制pp图? 找该直线的截距和斜率,通过截距和斜率的值找到正态参数均值和方差,可对这些正态参数进行正态检验。 K-S检验的的特点? 并不是只针对正态分布,是针对某一分布。在大样本时针对正态分布。
阅读全文
Tukey法
摘要:Tukey法 在介绍Tukey方法前,首先了解学生化极差分布。 在概率论和统计学中,学生化极差分布是极差的抽样分布。该分布是一种连续型概率分布,用于在样本量较小且总体标准差未知的情况下估计正态分布总体的极差。 假设要比较的组数为k,那么在零假设成立的条件下,下面的随机变量服从学生化极差分布。
阅读全文
主效应|处理误差 |组间误差|处理效应|随机误差|组内误差|误差|效应分析|方差齐性检验|SSE|SSA|SST|MSE|MSA|F检验|关系系数|完全随机化设计|区组设计|析因分析
摘要:8 什么是只考虑主效应的方差分析? 就是不考虑交互效应的方差分析,即认为因素之间是不相互影响的,就是无重复的方差分析。 什么是处理误差 (treatment error)、组间误差(between-group error)、处理效应(treatment effect)? 这三者都是同一个东西。处理误
阅读全文
卡方检验| 独立性检验|相关性检验
摘要:7 卡方检验需要注意的问题? 2X2列联表中每个类别的期望频数大于5 独立性检验和相关性检验的关系? 独立性检验变量越大则越不独立,相关性检验变量越大则越不独立,越相关。所以这两个检验是一致的。它们之间的关系是平行的。
阅读全文
第二类错误|检验统计量|左偏|右偏|P值
摘要:6 第二类错误在H0中的假设值差别越大时增大? 不对,第二类错误在H0中的假设值差别越大时变小。 检验统计量有哪些? 根据假设内容确定是左偏还是右偏? P值是在原假设为真的条件下,检验统计量大于或等于其观察值(样本)的概率? 对的,P值是以假设值为临界值时犯第一类错误的概率。P-值是在原假设为真的条
阅读全文
估计量|估计值|置信度|置信水平|非正态的小样本|t分布|大样本抽样分布|总体方差|
摘要:5 估计量和估计值是什么? 估计量不是估计出来的量,是用于估计的量。 估计量:用于估计总体参数的随机变量,一般为样本统计量。如样本均值、样本比例、样本方差等。例如:样本均值就是总体均值的一个估计量。 估计值就是估计出来的数值。 可以在点估计上使用样本方差估计总体方差吗? 可以,是无偏的。 置信度与置
阅读全文
参数|统计量|抽样分布|估计标准误差|标准误差|标准误|标准差|二项分布|泊松分布|中心极限定理|样本方差|
摘要:4 二项分布近似正态分布的条件? 参数和统计量的区别? 总体参数通常用希腊字母表示,样本统计量通常用小写英文字母来表示 抽样分布是一种理论分布吗? 抽样分布不是样本结果的分布,而是一种无法穷尽情况的分布,但是我们可以使用数学方法来求得进行这样抽取方法后的特统计量的分布。我们收取的样本点的统计量被认为
阅读全文
比率(ratio)|帕雷托图|雷达图|轮廓图|条形图|茎叶图|直方图|线图|折线图|间隔数据|比例数据|标准分数|标准差系数|离散系数|平均差|异众比率|四分位差|切比雪夫|右偏分布|
摘要:比率是什么? 比率(ratio) :不同类别数值的比值 在中文里,比率这个词被用来代表两个数量的比值,这包括了两个相似却在用法上有所区分的概念:一个是比的值;另一是变化率,是一个数量相对于另一数量的变化量,例如,速率是物体的移动距离相对于时间的变化量,以每单位时间的移动距离来表示;心跳率是每分钟的心
阅读全文
质量控制|样本和总体|有限总体和无限总体|样本空间与变量空间|总体变异性|
摘要:如何理解质量控制? Fig. 2 illustrates these chance and assignable causes of variation. From the Fig. 2, it is seen that until time t1, the process shown in thi
阅读全文
q检验|新复极差法|LSD|二因素方差分析
摘要:生物统计与实验设计 放大程度q检验:精度较高>新复极差法:各种错误比较平均>LSD 其中,LSD不随M的变化而变化,但是SSR和q-test会随M变化而变化。 第一步代表了方差分析的核心思想 第二步F检验与t检验同理 第三步只知道一组因素是否有差异,而不知道何种水平有差异,需要多重比较。 打星号表示
阅读全文
LSD|SSR|q-test
摘要:生物统计与实验设计 在确定了处理有显著性差异之后,想要知道哪种水平影响,这就要多重分析,可使用LSD方法: 将不同类的方差换成处理内方差(MSE)。 以上是两两比较的方法,但是比较时还要考虑比较顺序,比如(factor(1)先和factor(2)还是factor(3)比较),有以下方法:1.标记字母
阅读全文
非线性回归|
摘要:非线性回归 不是线性最好化为线性,因为线性方法多且可靠。
阅读全文
回归分析|r^2|Se|变差|多重相关系数|决定系数|多重共线性|容忍度|VIF|forward selection|backward elimination|stepwise regression procedure|best-subset approach|回归方程的置信区间|预测区间|残差分析|虚拟变量
摘要:应用统计学-回归分析 拟合度使用r^2和Se来检验。 显著性检验中,对于线性model使用ANOVA,对于单独的回归系数使用t检验。 最小二乘法、贝叶斯和最大似然都可用于求回归参数,最小二乘法是最小化残差平方和。 基于model影响变差的因素有随机误差和自变量x。 因为R^2=SST/SSE,所以取
阅读全文
多因素线性回归|adjusted R^2|膨胀系数|非线性回归|Second-order model with 1 independent variable|Interaction model with 2 independent variables|偏相关|fraction[a]|contribution
摘要:多因素线性回归 系数由最小二乘法得到 R^2;adjusted R^2:变量变多之后,r^2自然变大,但是这不是反应客观事实,所以引入了adjusted R^2 使用散点图看独立性,也可以使用软件,car package: 任何一个变量显著便使得整个模型(y)显著。 要保证各变量之间相互独立,否则一
阅读全文
相关关系|相关系数|线性关系|
摘要:回归分析: 对于连续型变量使用回归分析,对于离散型变量使用方差分析。取均值之后误差便消失了,因为误差服从均值为零的正态分布。 确定性关系是指函数关系,而不确定性关系可以用函数+误差值的形式表达出来,相关关系是一种不确定关系。 相关系数可以用于去掉量纲。 只用来描述线性关系,如果原来数据不是线性关系,
阅读全文
方差分析|残差|MSA/MSE|Completely randomized design|Randomized block design|LSD|主效应|intercept|多重比较|
摘要:符合方差分析的三个条件: 残差=实际值-预测值(其实是均值)。 在原假设下,MSA的期望会等于MSE的期望;在备选假设下,MSA的期望会大于MSE的期望,所以MSA/MSE的取值范围在(1,正无穷),所以是单侧检验。 这张图说明残差随机独立分布。 每组一个数就无法分析交互作用。 R提高但adjust
阅读全文