过分散是二项分布和泊松数据偶尔出现的现象。对于泊松数据，当响应Y的方差大于泊松方差时，即如果模型是泊松分布，如果模型完全拟合则y的方差与均值应该都相同是一个定值λ，但是有时候观测值得到的方差和均值不同，这就是过分散。

表示过分散(其中D是偏差，n是样本大小，p是变量数)

================================

广义混合模型（GLMM）：空间自相关

广义线性模型的一种推广，其中线性预测器除了通常的固定效应外，还包含随机效应。

计数数据的零截断和零膨胀模型

零截断意味着响应变量的值不能为0。

医学文献中的一个典型例子是病人住院的时间。

要获取生态数据，可以考虑一些响应变量，如鲸鱼在重新淹没前到达水面的时间、鱼类上的鳍射线计数(例如用于鱼群识别)、海豚群的大小、动物的年龄(以年数或月为单位)，或道路上杀死的动物的身体停留在路上的天数。

零膨胀数据在生态学研究中更为普遍。在这种情况下，根据泊松分布或负二项分布，响应变量包含的零点比预期的多。

=============================================

零截尾泊松分布

用于泊松分布的PDF：

为0的概率：

用于零截尾泊松分布的PDF：

=====================================================

零膨胀的GLM：为什么有这么多的零。

栖息地不合适

糟糕的实验设计或抽样实践

计算冬季悬崖上的海雀数量。很可能所有的样品都是0，因为这是一个错误的季节，他们都在海上。另一个设计错误是采样时间太短或采样面积太小。

观测者错误

有些鸟类看起来很相似，或者很难被发现。经验越少的观察者，他/她就越有可能获得难以识别的鸟类物种的零计数。或者，观察者可能是经验丰富的，但是在黑暗的日子里很难在黑暗的领域里发现一只微小的黑暗的鸟。

“动物”错误

这意味着栖息地是合适的，但该地点并没有被利用。

====================================

zip(Poisson)和ZINB(负二项式)模型

略

==================

ZIP模型

假设计数yi遵循泊松分布有期望值μi

用于泊松分布的PDF：

为0的概率：

假设Yi为假零的概率二项分布，概率πi，以下是ZIP模型的概率分布

在PoissonGLM中，我们将正计数数据的平均数μI建模为

因此，协变量被用来模拟正计数。假零的概率是多少？πi？最简单的方法是使用logistic回归：

==========================================================

条件logistic回归

用于配对病例对照研究，例如：一个病例（读病）受试者与许多对照组（读非疾病）是基于一些匹配或混淆因素。

条件logistic回归

黑鼻猴科由一只公猴和几只母猴组成。单身男性(通常是青少年)有时会向家庭中的成年男性发起挑战，以取得控制权。

在一群黑鼻子猴中，大约有6-7个家庭，有42-60个个体。在过去的10年里，家庭成员不断变化。在此期间，共观察到48项挑战行为。

男性在一个家庭中受到挑战的概率，与其他5-6名未受挑战的男性相比，与家庭中的女性数量(F_Tot)、可用女性数量(未在怀孕或哺乳期)(F_Ava)以及男性的等级有关。

==============================================

多元Logistic

它是一种将Logistic回归推广到多类问题的分类方法，即具有两个以上可能的离散结果。

它假设观测到的特征和一些特定问题的参数的线性组合可以用来确定因变量的每个特定结果的概率。

它还有其他一些名字：

多元Logistic回归

多分类logistic回归

Softmax回归

多项Logit

=================================================

理论的说明：略

多元Logistic：略

有序Logistic回归：略

=============================================

多元线性回归：β1的解释是，其他x2----Xn都不发生改变（即这些变量被控制），只有x1发生改变，单位改变的x1使得y改变的该变量。用最小二乘法估计矩阵。只有所有向量都是线性独立才能计算特征值，所以之前要判断各变量之间确实没有多元共线性。

======================================

看整体x：决定系数是用于评判所有x变量对于y是不是有贡献对于多元线性模型的理解，可以把它认为是多元方差分析，它的决定系数是：

如果加入更多变量，则决定系数变更大，所以这就是R square不足的地方。于是提出用来平衡模型的复杂程度。之前用F检验，检测一个β斜率，现在用F检验检测多个β斜率。

======================================

看单个x：贡献率：也可以单独挑出来单个变量，评判单变量对于y是否有贡献

看多个x：看两项合起来的因素组，对y的贡献情况，介于上两者之间。

==========================================

如果x有高次项，应该先设定成y=β0+β1x+β2x^2+β3x^3+β4x^4，而不是上来就写y=β0+β1x+β4x^4，因为存在高次项，所以一定会有多重共线性形成，即线性相关性。可以使用以下通式：

Piecewise线性关系就是每一段的斜率都不相同

Dummy variables用于比较多个组，把一个组作为基础组，其他组作为比较组，然后比较，它的解释是自变量是每一个斜率都是两类别变量下的连续值的差距。

=====================

数据转换

转换为正态分布

转换为方差齐性

转换为更简单的模型

不同y值类型与对应方程的选择：

posted on 2019-12-11 21:32 YUANya 阅读(4641) 评论(0) 收藏举报

刷新页面返回顶部

导航