随笔分类 - DataMining
摘要:什么是聚类(clustering) 个人理解:聚类就是将大量无标签的记录,根据它们的特点把它们分成簇,最后结果应当是相同簇之间相似性要尽可能大,不同簇之间相似性要尽可能小。聚类方法的分类如下图所示:一、如何计算样本之间的距离? 样本属性可能有的类型有:数值型,命名型,布尔型……在计算样本之间的距...
阅读全文
摘要:两种度量: 支持度(support) support(A→B) = count(AUB)/N (N是数据库中记录的条数) 自信度(confidence)confidence(A→B) = count(AUB)/count(A)关联规则挖掘的基本两个步骤: 1.找出所有的频繁项集 2.由频繁...
阅读全文
摘要:人工神经网络(Artificial Neural Networks)顾名思义,是模仿人大脑神经元结构的模型。上图是一个有隐含层的人工神经网络模型。X = (x1,x2,..,xm)是ANN的输入,也就是一条记录的在m个属性上的值。每个属性对应一个输入节点。 对于输入层来说,输入层的输...
阅读全文
摘要:Rule_set = {}; //学习的规则集初试为空for 每个类c do repeat Rule = Learn_One_Rule(D,Att-vals,c) 从D中删除被Rule覆盖的元组; until终止条件被满足 Rule_set...
阅读全文
摘要:朴素贝叶斯模型 1) X:一条未被标记的数据 2) H:一个假设,如H=X属于Ci类 根据贝叶斯公式 把X表示为(x1,x2,....xn)x1,x2,....xn表示X在各个特征上的值。 假设有c1,c2,c3...cm个类别。 那么这个对X的分类问题就可以转化为找出使P(...
阅读全文
摘要:1.数据结构 主要的数据结构有:1.Attribute List 2.Class List 对于数据集,每一个属性都有一个对应的Attribute List.如上图所示,每个Attribute List有两列,分别是对应的属性值和该条记录在Class List里的索引。根据不同的索引值...
阅读全文

浙公网安备 33010602011771号