摘要: 恢复内容开始 阅读全文
posted @ 2018-06-13 22:33 uuhh 阅读(102) 评论(0) 推荐(0)
摘要: 拉普拉斯校准是给频率表中每个计数加上一个较小的数,保证每个特征发生概率不为0的情况。 拉普拉斯平滑是给频率表中每个计数加上一个较小的数,保证每个特征发生概率不为0的情况。第一封只有w1,2只有w2,3只有w3,4只有w4,垃圾邮件总数+4。正常邮件总数=正常+倍数(正常÷垃圾)*4总似然:只求分子, 阅读全文
posted @ 2018-06-13 16:30 uuhh 阅读(1377) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 16:14 uuhh 阅读(179) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 15:55 uuhh 阅读(123) 评论(0) 推荐(0)
摘要: 信息增益=信息熵-条件熵 条件熵越小,意味着在此条件下,数据越纯粹。 如果将记录id考虑到条件熵里的话,计算的信息增益是最大的。按规则应该选择记录id来分类。但是这样,对后来的新记录就预测不准确。这就是过拟合问题。此时就应选择信息增益率这个概念。 信息增益率=信息增益/信息熵 gr(D,A)=g(D 阅读全文
posted @ 2018-06-13 13:00 uuhh 阅读(1000) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 11:31 uuhh 阅读(146) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 11:30 uuhh 阅读(107) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 11:29 uuhh 阅读(102) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 11:29 uuhh 阅读(71) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 11:28 uuhh 阅读(127) 评论(0) 推荐(0)
摘要: 决策树:非线性有监督分类模型 随机森林:非线性有监督分类模型 决策树:根节点:顶层分类条件。中间节点:中间分类条件。叶子节点:分类号。分支:每个条件输出。二叉树:节点有2个分支。多叉树:节点至少2分支 决策树:根据样本的纯粹度来分类。 将纯粹度进行量化,计算机才能读懂。 信息熵:量化信息量,由香农提 阅读全文
posted @ 2018-06-13 11:24 uuhh 阅读(920) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 09:51 uuhh 阅读(88) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2018-06-13 09:50 uuhh 阅读(161) 评论(0) 推荐(0)