数据化运营(2)

第10章 预测响应(分类)模型的应用和技术小窍门
       正如上篇文章所说的本书的重点是商业+模型,本章节中关于算法的一些描述我觉得有些不妥,例如介绍决策树(DT)的优缺点的时候,文中指出“如果目标变量是连续型变量,那么决策树就不适用了,最好改成线性回归”,其实DT算法也是可以解决回归问题的,例如互联网广告页面的点击率预测就可以用GBRT(梯度的boosting tree)来预测,再例如文中对比线性回归跟逻辑回归时,说线性模型是目标变量跟自变量呈线性,而logistic regression又不是线性的,这个从算法层面来讲就有点矛盾了,logistic regression其实也是一个线性模型。全章介绍了4种算法(神经网络NN,决策树DT,逻辑回归LR,多元线性回归),关于这四种算法的总结如下
关于各个算法的详细情况(优化,目标函数,参数调优,并行化策略),可以google或者看论文,下图对比了不同学习算法优缺点
 
         最后关于模型的过拟合问题也是需要关注的,导致过拟合的原因有如下:
业务原因:1) 建模样本数据的提取跟业务逻辑不对应; 2) 根据业务提取的数据质量存在问题;
模型原因:1) 模型自变量(特征属性)过多; 2) 模型迭代次数过多;
       另外数据样本要保证足够,否决就欠拟合啦
       应对过拟合的解决手段:1)把数据分成训练、测试、验证三组数据集合,结合模型调整参数; 2)数据采样的时候要注意最好层次采样。
posted @ 2014-02-14 17:55  kobeshow  阅读(573)  评论(0编辑  收藏  举报