• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
周安伟
博客园    首页    新随笔    联系   管理    订阅  订阅

三,专著研读

三,专著研读

  • 支持度:几个关联的数据在数据集中出现的次数所占数据集的比重。支持度是针对項集来说的,可以定义一个最小支持度,保留满足最小支持度的項集,起到項集过滤。
  • 置信度:一个数据出现后,另外一个数据出现的概率(数据的条件概率),(例:豆奶-莴苣/莴苣)
    \(Confidence\left ( X\rightarrow Y \right )=P\left ( X\mid Y \right )=\frac{P\left ( XY \right )}{P\left ( Y \right )}\)


多个数据的置信度

\(Confidence\left ( X\rightarrow YZ \right )=P\left ( X\mid YZ \right )= \frac{P\left ( XYZ \right )}{P\left ( YZ \right )}\)

  • 提升度:含有Y条件下同时含有X的概率,与X总体发生的概率之比,也就是X对Y的提升度。
    \(Lift\left (X \rightarrow Y \right )=\frac{P\left (X \mid Y \right )}{P\left ( X \right )}=\frac{Confidence\left ( X\rightarrow Y \right )}{p\left ( X \right )}\)

  • 先验性质:频繁項集的子集也是频繁項集,非频繁項集的超级是非频繁的(重点)。

  • Apriori:
    Apriori对每个潜在的频繁項集,都会扫描判定是否是频繁的。

  • FP-growth:
    两次扫描(对关键字进行排序),FP只是一个更高效的发现频繁項集的算法,不能用于发现关联规则。

posted @ 2019-07-24 14:37  周安伟  阅读(146)  评论(0)    收藏  举报
刷新页面返回顶部
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3