随笔分类 -  机器学习与数据挖掘

摘要:数据挖掘分类技术作者:sccot 撰写日期:2012-02-281、过分拟合问题: 造成原因有:(1)噪声造成的过分拟合(因为它拟合了误标记的训练记录,导致了对检验集中记录的误分类);(2)根据少量训练记录做出分类决策的模型也容易受过分拟合的影响。(由于训练数据缺乏具有代表性的样本,在没有多少训练记录的情况下,学习算法仍然继续细化模型就会产生这样的模型,当决策树的叶节点没有足够的代表性样本时,很可能做出错误的预测)(3)多重比较也可能会导致过分拟合(大量的候选属性和少量的训练记录最后导致了模型的过分拟合)2、泛化误差的估计: (1)乐观估计(决策树归纳算法简单的选择产生最低训练误差的模型作为最 阅读全文
posted @ 2012-03-17 16:32 Happy博客创作团队 阅读(1293) 评论(0) 推荐(0)
摘要:CART算法学习及实现作者:大卡卡 撰写时间:2011.9.291.算法介绍 分类回归树算法:CART(Classification And Regression Tree)算法采用一种二分递归分割的技术,将当前的样本集分为两个子样本集,使得生成的的每个非叶子节点都有两个分支。因此,CART算法生成的决策树是结构简洁的二叉树。 分类树两个基本思想:第一个是将训练样本进行递归地划分自变量空间进行建树的想法,第二个想法是用验证数据进行剪枝。 建树:在分类回归树中,我们把类别集Result表示因变量,选取的属性集attributelist表示自变量,通过递归的方式把attributelist把p维空 阅读全文
posted @ 2011-09-30 23:25 Happy博客创作团队 阅读(6417) 评论(3) 推荐(1)