摘要: 搜索引擎推荐问题:通过查看互联网上的用词来找出经常在一块出现的词对。 FP-growth是一种高效发现频繁集的方法。它只需要对数据库进行两次扫描,第一遍扫描是对所有元素项的出现次数进行计数,统计出现的频率,第二遍扫描只考虑那些频繁元素。 适用数据类型:标称型数据 优点:一般快于Apriori 算法介 阅读全文
posted @ 2019-10-07 17:26 熊猫blue 阅读(759) 评论(0) 推荐(0)
摘要: summary: 关联分析是用于发现大数据集中元素间有趣关系的一个工具集,可以采用两种方式来量化这些有趣的关系。第一种方式是频繁项集,它会给出经常出现在一起的元素项;第二种方式是关联规则,每条关联规则意味着元素项之间“如果……那么”的关系。 发现元素项间不同的组合是个十分耗时的任务,不可避免需要大量 阅读全文
posted @ 2019-10-07 07:41 熊猫blue 阅读(1148) 评论(0) 推荐(0)
摘要: python的集合运算 交: x&y 并: x|y 差: x-y 对称差集:x^y 判断两个集合是否相交:x.isdisjoint(y) 若相交则返回False 判断包含和被包含的关系: y0.issubset(y) ; y.issuperset(y0) 集合的操作: x.add(obj) #往集合 阅读全文
posted @ 2019-10-07 06:10 熊猫blue 阅读(2558) 评论(0) 推荐(0)