随笔分类 -  大数据学习

老师推荐看的算法类学习,每周看一点,每周一汇报
摘要:一、Apriori算法性质 性质一: 性质二: 可以理解为候选频繁k项集是由频繁k 1项集再加上一个频繁项组成,而这个频繁项可以根据上述的性质二来缩小范围。 二、Apriori算法在hadoop下的改进 1、缺陷分析 候选项集的支持度统计效率低 候选项目集键值对产生数量大 2、算法改进步骤: a、单 阅读全文
posted @ 2016-11-14 21:51 早上好王木木 阅读(1173) 评论(0) 推荐(0)
摘要:一、频繁项集 若I是一个项集,I的支持度指包含I的购物篮数目,若I的支持度 =S,则称I是频繁项集。其中,S是支持度阈值。 1、应用 “尿布和啤酒” 关联概念:寻找多篇文章中共同的词汇集合。项 词,购物篮 文档 文档抄袭:寻找多个购物篮中共同出现的项对,同一个项对出现在越多的购物篮中,其相似度越高。 阅读全文
posted @ 2016-11-02 14:31 早上好王木木 阅读(3017) 评论(0) 推荐(0)