随笔分类 -  【大数据】

摘要:k-均值算法 EM算法 阅读全文
posted @ 2020-05-22 11:41 东耳听风 阅读(277) 评论(0) 推荐(0)
摘要:先验概率:P(A)、P(C) (无条件概率) 后验概率:P(C|A) 联合后验概率:P(A|C) 例题1 例题2 朴素贝叶斯分类 互相独立可用联合概率求解,比如P(A1,A2|C)=P(A1,C)*P(A2,C) 阅读全文
posted @ 2020-04-27 14:14 东耳听风 阅读(403) 评论(0) 推荐(0)
摘要:决策树分类算法,针对离散数据来进行预测的。 ID3算法 缺点1:用信息增益来作为选择分支属性标准的话,偏向于取值较多的那个属性 缺点2:只能处理离散型的属性 缺点3:对于比较小的数据集是有效的 缺点4:可能会出现过度拟合的问题 1.信息增益 描述属性(条件属性) 类别属性(分类属性)“也是预测的对象 阅读全文
posted @ 2020-04-20 21:38 东耳听风 阅读(1887) 评论(0) 推荐(0)
摘要:熵的求解公式: 例题: 熵表示为消除不确定性所需要的信息量,投掷均匀正六面体骰子的熵是()比特。 参考网址:http://blog.sina.com.cn/s/blog_5ebba6660101h6ez.html 阅读全文
posted @ 2020-04-19 21:55 东耳听风 阅读(1235) 评论(0) 推荐(0)
摘要:频繁项集: 最基本的模式是项集,它是指若干个项的集合。频繁模式是指数据集中频繁出现的项集、序列或子结构。频繁项集是指支持度大于等于最小支持度(min_sup)的集合。其中支持度是指某个集合在所有事务中出现的频率。频繁项集的经典应用是购物篮模型。常用的频繁项集的评估标准有支持度,置信度和提升度(关联规 阅读全文
posted @ 2020-04-04 13:42 东耳听风 阅读(3097) 评论(0) 推荐(0)