6.逻辑回归

1.用自己的话描述一下,什么是逻辑回归,与线性回归对比,有什么不同?

 逻辑回归是机器学习中的一种分类模型,在线性回归的基础上,套用了一个逻辑函数,用于估计某种事物的可能性。

他们的区别是:

1 线性回归是计算出具体的值,是解决回归问题;逻辑回归是给出是和否,解决的是分类问题。

2 逻辑回归引入了sigmoid函数,把y值从线性回归的(−∞,+∞)限制到了(0,1)的范围。

3 逻辑回归通过阈值判断的方式,引入了非线性因素,可以处理分类问题。

 

2.自述一下什么是过拟合和欠拟合?

过拟合:

 过拟合指的是referstoa模型对于训练数据拟合程度过当的情况。

当某个模型过度的学习训练数据中的细节和噪音,以至于模型在新的数据上表现很差,我们称过拟合发生了。这意味着训练数据中的噪音或者随机波动也被当做概念被模型学习了。而问题就在于这些概念不适用于新的数据,从而导致模型泛化性能的变差。过拟合更可能在无参数非线性模型中发生,因为学习目标函数的过程是易变的具有弹性的。同样的,许多的无参数器学习算法也包括限制约束模型学习概念多少的参数或者技巧。

例如,决策树就是一种无参数机器学习算法,非常有弹性并且容易受过拟合训练数据的影响。这种问题可以通过对学习过后的树进行剪枝来解决,这种方法就是为了移除一些其学习到的细节。

欠拟合:

欠拟合指的是模型在训练和预测时表现都不好的情况。

一个欠拟合的机器学习模型不是一个良好的模型并且由于在训练数据上表现不好这是显然的。欠拟合通常不被讨论,因为给定一个评估模型表现的指标的情况下,欠拟合很容易被发现。矫正方法是继续学习并且试着更换机器学习算法。虽然如此,欠拟合与过拟合形成了鲜明的对照。

3.思考一下逻辑回归的应用场景有哪些?

贷款违约情况:在金融风控领域,我们经常会通过这种模型来判断一个人的信用状况,例如这个人年纪比较小,或者之前有逾期的历史,或者工资没有达到一定的标准的时候,我们可以选择去拒贷,因为我们的模型会判断出来,这个人有可能会违约的,或者在将来会有很大概率违约的情况,再贷款违约的问题上,逻辑回归是一个重要的模型,在很多这种银行机构,他们仍然会采用逻辑回归模型做预测的问题。

 

广告点击率问题:这个问题英文叫CTR prediction,很多互联网公司想赚钱是要靠广告的,包括百度谷歌它们的大部分收入其实都来源于广告,当我们在百度上搜索一些关键词的时候,我们可以看到右边可能会出现一些广告,这些广告其实是需要分析用户的一些行为的,我要做一个精准的广告投放,这样广告的浏览率或者浏览的概率会增加,这样会给这些公司带来更多的利润,所以对于这类问题来说,广告点击率的预测的问题变得非常重要,在这个问题上我们很多都是用逻辑回归模型来做的。

 

商品推荐:在商品推荐上虽然我们大部分会采用矩阵分解或者协同过滤的算法,但是逻辑回归我们也可以把它用在商品推荐上。

 

情感分析:情感分析属于文本分析,它用来判断一个文章的情感是正面的还是负面的,我们可以从很多文本里面提取特征,然后把特征放到逻辑回归模型里面,然后做预测,预测这个文章的情感是正面的概率有多大或者负面的概率有多大。情感分析是非常经典的二分类问题,逻辑回归对情感分析来说也是一个非常有效的算法。在证券领域,我们也可以通过这种方式去判断未来股市的走势。

 

疾病的诊断:比如我给定一张图片或者一些传感器的数据,然后我去判断这个人有没有疾病,这也是非常经典的二分类问题,在这种问题上我们仍然可以采用逻辑回归模型。

最后还有很多的分类问题,我们都可以采用逻辑回归模型,即便我们最终上线的系统它不是基于逻辑回归的,但是逻辑回归是一个非常好的baseline,效果也是很好的,并且未必比我们采用深度学习或者更复杂的模型的效果差很多。

posted @ 2020-04-25 10:39  椰梨  阅读(180)  评论(0编辑  收藏  举报