数据化运营(2)

第10章预测响应(分类)模型的应用和技术小窍门

正如上篇文章所说的本书的重点是商业+模型，本章节中关于算法的一些描述我觉得有些不妥，例如介绍决策树(DT)的优缺点的时候，文中指出“如果目标变量是连续型变量，那么决策树就不适用了，最好改成线性回归”，其实DT算法也是可以解决回归问题的，例如互联网广告页面的点击率预测就可以用GBRT(梯度的boosting tree)来预测，再例如文中对比线性回归跟逻辑回归时，说线性模型是目标变量跟自变量呈线性，而logistic regression又不是线性的，这个从算法层面来讲就有点矛盾了，logistic regression其实也是一个线性模型。全章介绍了4种算法(神经网络NN，决策树DT，逻辑回归LR，多元线性回归)，关于这四种算法的总结如下

关于各个算法的详细情况(优化,目标函数,参数调优,并行化策略),可以google或者看论文，下图对比了不同学习算法优缺点

最后关于模型的过拟合问题也是需要关注的，导致过拟合的原因有如下：

业务原因：1) 建模样本数据的提取跟业务逻辑不对应; 2) 根据业务提取的数据质量存在问题;

模型原因：1) 模型自变量(特征属性)过多; 2) 模型迭代次数过多;

另外数据样本要保证足够，否决就欠拟合啦

应对过拟合的解决手段：1)把数据分成训练、测试、验证三组数据集合，结合模型调整参数; 2)数据采样的时候要注意最好层次采样。

posted @ 2014-02-14 17:55 kobeshow 阅读(591) 评论(0) 收藏举报

刷新页面返回顶部

YYGamer->QQSearcher

机器学习、搜索、数据分析、广告、产品、运营

数据化运营(2)

公告