随笔分类 -  数据挖掘

摘要:参考文献:http://blog.csdn.net/chl033/article/details/3324548考虑一个数据库中的二维表如下:元素颜色形状大小稳定性x1红三角大稳定x2红三角大稳定x3黄圆小不稳定x4黄圆小不稳定x5兰方块大稳定x6红圆中不稳定x7兰圆小不稳定x8兰方块中不稳定其中“颜色形状大小”称为条件属性,“稳定性”称为决策属性。我们的目的是找出哪些条件属性能够对决策属性有影响。主要思路是假设去除要验证的条件属性后,其下近似集和上近似集没有变化,那么说明没影响,反之有影响。假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积 阅读全文

posted @ 2012-06-28 20:43 蓝色守望 阅读(784) 评论(0) 推荐(0)

摘要:本文转自:http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html4.1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介绍聚类的基础——距离与相异度,然后介绍一种常见的聚类算法——k均值和k中心点聚类 阅读全文

posted @ 2012-06-25 20:49 蓝色守望 阅读(255) 评论(0) 推荐(0)

导航