随笔分类 - 【大数据】
摘要:先验概率:P(A)、P(C) (无条件概率) 后验概率:P(C|A) 联合后验概率:P(A|C) 例题1 例题2 朴素贝叶斯分类 互相独立可用联合概率求解,比如P(A1,A2|C)=P(A1,C)*P(A2,C)
阅读全文
摘要:决策树分类算法,针对离散数据来进行预测的。 ID3算法 缺点1:用信息增益来作为选择分支属性标准的话,偏向于取值较多的那个属性 缺点2:只能处理离散型的属性 缺点3:对于比较小的数据集是有效的 缺点4:可能会出现过度拟合的问题 1.信息增益 描述属性(条件属性) 类别属性(分类属性)“也是预测的对象
阅读全文
摘要:熵的求解公式: 例题: 熵表示为消除不确定性所需要的信息量,投掷均匀正六面体骰子的熵是()比特。 参考网址:http://blog.sina.com.cn/s/blog_5ebba6660101h6ez.html
阅读全文
摘要:频繁项集: 最基本的模式是项集,它是指若干个项的集合。频繁模式是指数据集中频繁出现的项集、序列或子结构。频繁项集是指支持度大于等于最小支持度(min_sup)的集合。其中支持度是指某个集合在所有事务中出现的频率。频繁项集的经典应用是购物篮模型。常用的频繁项集的评估标准有支持度,置信度和提升度(关联规
阅读全文

浙公网安备 33010602011771号