摘要:
恢复内容开始 阅读全文
posted @ 2018-06-13 22:33
uuhh
阅读(102)
评论(0)
推荐(0)
摘要:
拉普拉斯校准是给频率表中每个计数加上一个较小的数,保证每个特征发生概率不为0的情况。 拉普拉斯平滑是给频率表中每个计数加上一个较小的数,保证每个特征发生概率不为0的情况。第一封只有w1,2只有w2,3只有w3,4只有w4,垃圾邮件总数+4。正常邮件总数=正常+倍数(正常÷垃圾)*4总似然:只求分子, 阅读全文
posted @ 2018-06-13 16:30
uuhh
阅读(1377)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2018-06-13 16:14
uuhh
阅读(179)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2018-06-13 15:55
uuhh
阅读(123)
评论(0)
推荐(0)
摘要:
信息增益=信息熵-条件熵 条件熵越小,意味着在此条件下,数据越纯粹。 如果将记录id考虑到条件熵里的话,计算的信息增益是最大的。按规则应该选择记录id来分类。但是这样,对后来的新记录就预测不准确。这就是过拟合问题。此时就应选择信息增益率这个概念。 信息增益率=信息增益/信息熵 gr(D,A)=g(D 阅读全文
posted @ 2018-06-13 13:00
uuhh
阅读(1000)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2018-06-13 11:31
uuhh
阅读(146)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2018-06-13 11:30
uuhh
阅读(107)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2018-06-13 11:29
uuhh
阅读(102)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2018-06-13 11:29
uuhh
阅读(71)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2018-06-13 11:28
uuhh
阅读(127)
评论(0)
推荐(0)
摘要:
决策树:非线性有监督分类模型 随机森林:非线性有监督分类模型 决策树:根节点:顶层分类条件。中间节点:中间分类条件。叶子节点:分类号。分支:每个条件输出。二叉树:节点有2个分支。多叉树:节点至少2分支 决策树:根据样本的纯粹度来分类。 将纯粹度进行量化,计算机才能读懂。 信息熵:量化信息量,由香农提 阅读全文
posted @ 2018-06-13 11:24
uuhh
阅读(920)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2018-06-13 09:51
uuhh
阅读(88)
评论(0)
推荐(0)
摘要:
阅读全文
posted @ 2018-06-13 09:50
uuhh
阅读(161)
评论(0)
推荐(0)

浙公网安备 33010602011771号