数据挖掘导论学习---2

聚类问题

聚类也成为集群分析,是把相似的对象通过静态分类的方式分成不同组或更多的子集,属于非监督学习。

分类问题不同的是,聚类问题的数据事先是没有标签的。

数据点之间的距离度量:

  • 欧氏距离
  • 曼哈顿距离

经典算法:K-means等

应用:

  • market research
  • 社交网络分析
  • 客户划分等

层次型聚类:

在不同层面,grouping结果不同。

关联规则

emmmmmmmm,数据挖掘有个广为人知的但是不知真伪的例子:啤酒与尿布。讲的是沃尔玛经过对顾客的购买行为数据进行分析后,得出男人在买尿布的时候一般会买一些啤酒。这其实就是一关联规则的体现。

下面再举个栗子:

通过对购买行为的分析,我们得到了买牛奶和面包时,一般会买黄油的结论。

回归

回归接触比较多,这里就不展开bb了,注意回归也不能要求overfitting。

 

此外还有数据可视化,数据预处理等一些方面,数据预处理是数据挖掘中最麻烦,最耗时的一步,而可视化可用的工具(软件)有很多,数据的可视化可以帮助我们合理地选择算法,提高效率。

 

posted @ 2019-06-12 23:45  JamesChou  阅读(139)  评论(0)    收藏  举报