Loading

逻辑回归(二分法)

数据预处理(生成虚拟变量)

 

 对于因变量为分类变量的情况,我们可以使用逻辑回归进行处理。 把y看成事件发生的概率,y>0.5表示发生;y<0.5表示不发生

线性概率模型(Linear Probability Model,简记LPM)直接用原来的回归模型进行回归

 

 

 限制条件(两点分布--伯努利分布)

 

连接函数的取法

 

 

 

 

 logistics回归实现原理

 

SPSS求解逻辑回归

 

预测成功率

 

 

 逻辑回归系数表

 

 

表格中新添的两列解读

 

 假如自变量有分类变量的解决办法

 

 ⭐预测结果较差的解决办法

 

样本量过大会出现过拟合现象

虽然预测能力提高了,但是容易发生过拟合的现象。 对于样本数据的预测非常好,但是对于样本外 的数据的预测效果可能会很差。 (是不是和龙格现象有点相似)

 

 如何确定适合的模型

 把数据分为训练组和测试组,用训练组(已知)的数据来估计出模型,再用测试组的数据来进行测试。(训练组和测试组的比例一般设置为80%和20%)

例子:已知分类结果的水果ID为1‐38,前19个为苹果,后19个为橙子。 每类水果中随机抽出3个ID作为测试组,剩下的16个ID作为训练组。 (比如:17‐19、36‐38这六个样本作为测试组) 比较设置不同的自变量后的模型对于测试组的预测效果。

(注意:为了消除偶然性的影响,可以对上述步骤多重复几次,最终对每个模型求一个平均的准确率,这个步骤称为交叉验证。)

posted @ 2021-09-03 16:30  ⭐⭐-fighting⭐⭐  阅读(554)  评论(0)    收藏  举报