逻辑回归要点（个人观点，不一定正确）

不是搞算法的，但最近用到这个，所以按个人的理解总结一下要点，可能有理解上的错误，欢迎指正批评。

目前场景是用于可能性预测。

1.逻辑回归模型计算出来的是相对可能性，而非概率，所以非常适合topN选择等问题；如果用于分类，则其用于分割的阈值通过指标参数确定。总体上来说，更适合求topN。

2.仅能用于线性问题，其实很多数学不是很好的人，对这个理解不深入，在使用Logistic Regression时注意选择和target呈线性关系的feature。预先知道模型非线性时，果断不使用Logistic Regression，切勿以为随便塞入feature、维度足够多就总会得到一个较为靠谱的模型。其终究是线性拟合，只是对规律的简单近似，不符合哪些明显其它相关性函数的场景。

3.各feature之间不需要满足条件独立假设，但各个feature的贡献是独立计算的。对相关的条件，会自动通过训练分配参数。但LR是不会自动帮你combine 不同的features产生新feature（组合feature），而我们在做可能性预测时，组合feature正要性更高，所以千万别偷懒。

4.决策树等和逻辑回归的分歧是：逻辑回归对数据整体结构的分析优于决策树，而决策树对局部结构的分析优于逻辑回归。逻辑回归擅长分析线性关系，而决策树对线性关系的把握较差。虽然对付非线性关系是决策树的强项，但是很多非线性关系完全可以用线性关系作为近似，而且效果很好。线性关系在实践中有很多优点：简洁，易理解，可以在一定程度上防止对数据的过度拟合。逻辑回归对极值比较敏感，容易受极端值的影响（因为所有样本在最终的模型中相互影响），而决策树在这方面表现较好。

5.决策树由于采用分割的方法，所以能够深入数据细部，但同时失去了对全局的把握。一个分层一旦形成，它和别的层面或节点的关系就被切断了，以后的挖掘只能在局部中进行。同时由于切分，样本数量不断萎缩，所以无法支持对多变量的同时检验。而逻辑回归，始终着眼整个数据的拟合，所以对全局把握较好。但无法兼顾局部数据，或者说缺乏探查局部结构的内在机制。

6.利用决策树对局部数据结构优越的把握能力增加逻辑回归的效力。在具体做法上有几种，一种是从决策树分析中找出数据局部结构，作为在逻辑回归中构建依变量（interaction)的依据。另一种是在需要对预测因子进行离散化处理时，利用决策树分析决定最佳切分点。还有一种是把决策树分类的最终结果作为预测变量，和其他协变量一起代入回归模型，又称为“嫁接式模型”。从理论上讲，嫁接模型综合了决策树和逻辑回归的优点。最终节点包含了数据中重要的局部结构，而协变量可以拾补被决策树遗漏的数据整体结构。

posted @ 2014-11-16 00:23 fernnix 阅读(4429) 评论(0) 收藏举报

刷新页面返回顶部

fernnix

逻辑回归要点（个人观点，不一定正确）

公告