1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?

逻辑回归是一种用于解决二分类问题的机器学习方法;简单来说,就是用于估计某种事物发生的可能性,例如:今天是晴天的可能性,用户购买某商品的可能性。

逻辑回归和线性回归都是一种广义的线性回归模型,逻辑回归与线性回归有很多相同之处,去除Sigmoid映射函数的话,逻辑回归算法就是一个线性回归。可以说,逻辑回归是以线性回归为理论支持的,但是逻辑回归通过Sigmoid函数引入了非线性因素,因此可以轻松处理0/1分类问题。

逻辑回归示意图:

 与线性回归的对比:

方法 线性回归 逻辑回归
自变量(范围) (-∞,+∞) (-∞,+∞)
因变量(范围) (-∞,+∞) (0,1)
用途  主要用来预测数据  主要用来分类
求参  最小二乘法  最大似然法
关系  线性  非线性

 

 

 

 

 

 

 

 

2.自述一下什么是过拟合和欠拟合?

欠拟合与过拟合示意图:

欠拟合:假设我们需要建立一个用于识别猫猫的模型,我们对这个模型进行训练,用于训练的样本较少,学习到的数据特征过少,导致训练出来的模型不能很好的匹配,甚至可能连猫猫都无法识别。

过拟合:同样的,假设建立了一个用于识别猫猫的模型,我们对这个模型进行训练,用于训练的样本特征过多,几乎将所有特征都涵盖进去了,导致模型过度拟合,测试的时候结果不准确。

欠拟合与过拟合对比:

类型 欠拟合 过拟合
原因 学习到的数据特征过少

原始特征过多,存在一些嘈杂特征,模型过于复杂

是因为模型尝试去兼顾各个测试点数据

解决办法 增加数据的特征数量

1.进行特征选择,消除关联性大的特征

2.交叉验证(让所有数据都有过训练)

3.正则化

 

 

 

 

 

 

 

 

 

欠拟合,过拟合与模型正常对比图:

 

3.思考一下逻辑回归的应用场景有哪些?

(1)可以根据书籍的推荐指数,作者等进行预测书籍的点击率,即用户是否会点击查看该书籍。

(2)可以根据某疾病的特征用来预测是否患有该疾病。

(3)可以根据用户的购买记录以及足迹,分析出用户喜欢哪一类商品,然后预测用户是否会购买某商品。