随笔分类 -  Paper1

摘要:2019-4-24 论文进行的四个模块: 模块一:编码方面 使用较为容易实现方式,并且可以将其应用于真实数据集; 之前的编码方式在用户的属性和阈值较大时,其通信代价太大,希望能够降低; 我们目前能够想到的是二进制编码,和哈达玛编码, 但是需要理论依据证明这种编码方式通信代价低,或者做位或运算可以加快 阅读全文
posted @ 2019-04-24 17:16 彩色的梦 阅读(208) 评论(0) 推荐(0)
摘要:一、论文整体思路: 作者提出了一种基于前缀树的数据结构,NegNodeset,其实是对之前前缀树的一种改进,主要区别在于采用了位图编码,通过这种数据结构产生的算法称为negFIN。 negFIN算法高效有三个原因 二、问题定义 I= {i1,i2,…, init} 表示事务数据库所有项的集合,T表示 阅读全文
posted @ 2019-04-15 15:56 彩色的梦 阅读(593) 评论(0) 推荐(0)
摘要:一、论文目标:将差分隐私和频繁项集挖掘结合,主要针对大规模数据。 二、论文的整体思路: 1)预处理阶段: 对于大的数据集,进行采样得到采样数据集并计算频繁项集,估计样本数据集最大长度限制,然后再缩小源数据集;(根据最小的support值,频繁项集之外的项集从源数据集移除) 我们利用字符串匹配去剪切数 阅读全文
posted @ 2019-04-15 11:33 彩色的梦 阅读(457) 评论(0) 推荐(0)
摘要:常见的频繁项集挖掘算法有:Apriori、FP-Tree、Eclat。 阅读全文
posted @ 2019-04-08 18:34 彩色的梦 阅读(264) 评论(0) 推荐(0)
摘要:基础知识: 支持度:单个项占总项集的百分比,比如薯片的支持度=4/5*100%=80%,可乐的支持度=3/5*100%=60%。 置信度:薯片=>羽毛球的置信度=3/4*100%=75%,可乐=>羽毛球的置信度=3/3*100%=100%。 一、Apriori算法 假设minsupport=0.2, 阅读全文
posted @ 2019-04-02 16:24 彩色的梦 阅读(6198) 评论(0) 推荐(1)
摘要:python中&运算符先将整数转化为其的二进制,对两个二进制进行计算,最后再转化为整数。 5&3计算过程为 0101(2)&0011(2)=0001(2)=1 知道你要结婚了,我真的很祝福你,我这几年经历了很多,过得很不好,我也只会选择默默关注着你,从来不去打扰,真的希望你每一天开心,被人所爱,除了 阅读全文
posted @ 2019-02-28 09:42 彩色的梦 阅读(237) 评论(0) 推荐(0)