2018 年 6月 13 日随笔档案 - uuhh

2018年6月13日

摘要：恢复内容开始阅读全文

posted @ 2018-06-13 22:33 uuhh 阅读(102) 评论(0) 推荐(0)

拉普拉斯校准（平滑公式）是给频率表中每个计数加上一个较小的数，保证每个特征发生概率不为0的情况。

摘要：拉普拉斯校准是给频率表中每个计数加上一个较小的数，保证每个特征发生概率不为0的情况。拉普拉斯平滑是给频率表中每个计数加上一个较小的数，保证每个特征发生概率不为0的情况。第一封只有w1,2只有w2,3只有w3,4只有w4,垃圾邮件总数+4。正常邮件总数=正常+倍数(正常÷垃圾)*4总似然：只求分子，阅读全文

posted @ 2018-06-13 16:30 uuhh 阅读(1377) 评论(0) 推荐(0)

利用贝叶斯定理计算多个单词下垃圾邮件的概率

摘要：阅读全文

posted @ 2018-06-13 16:14 uuhh 阅读(179) 评论(0) 推荐(0)

贝叶斯定理

摘要：阅读全文

posted @ 2018-06-13 15:55 uuhh 阅读(123) 评论(0) 推荐(0)

信息增益=信息熵-条件熵

摘要：信息增益=信息熵-条件熵条件熵越小，意味着在此条件下，数据越纯粹。如果将记录id考虑到条件熵里的话，计算的信息增益是最大的。按规则应该选择记录id来分类。但是这样，对后来的新记录就预测不准确。这就是过拟合问题。此时就应选择信息增益率这个概念。信息增益率=信息增益/信息熵 gr(D,A)=g(D 阅读全文

posted @ 2018-06-13 13:00 uuhh 阅读(1000) 评论(0) 推荐(0)

条件熵

摘要：阅读全文

posted @ 2018-06-13 11:31 uuhh 阅读(146) 评论(0) 推荐(0)

信息熵

摘要：阅读全文

posted @ 2018-06-13 11:30 uuhh 阅读(107) 评论(0) 推荐(0)

confusion matrix

摘要：阅读全文

posted @ 2018-06-13 11:29 uuhh 阅读(102) 评论(0) 推荐(0)

roc auc

摘要：阅读全文

posted @ 2018-06-13 11:29 uuhh 阅读(71) 评论(0) 推荐(0)

dsfa

摘要：阅读全文

posted @ 2018-06-13 11:28 uuhh 阅读(127) 评论(0) 推荐(0)

决策树和随机森林->信息熵和条件熵

摘要：决策树：非线性有监督分类模型随机森林：非线性有监督分类模型决策树：根节点：顶层分类条件。中间节点：中间分类条件。叶子节点：分类号。分支：每个条件输出。二叉树：节点有2个分支。多叉树：节点至少2分支决策树：根据样本的纯粹度来分类。将纯粹度进行量化，计算机才能读懂。信息熵：量化信息量，由香农提阅读全文

posted @ 2018-06-13 11:24 uuhh 阅读(920) 评论(0) 推荐(0)

roc+auc

摘要：阅读全文

posted @ 2018-06-13 09:51 uuhh 阅读(88) 评论(0) 推荐(0)

confuse matrix

摘要：阅读全文

posted @ 2018-06-13 09:50 uuhh 阅读(161) 评论(0) 推荐(0)

uuhh

公告