摘要:
相似性和相异性(区别性,不同性) 相似性就是两个数据个体间的相似程度嘛,相异性就是相对的概念咯。相异性也就是距离,如果我们把数据个体看做是向量,那么相异性就是两个向量间的距离了。相似性与相异性的转换 相似性和相异性通常都用区间[0,1]内的数值来表示。这两种值是负相关的,因此理论上任意单调递减的函数... 阅读全文
posted @ 2015-05-12 10:14
曾可爱
阅读(1356)
评论(0)
推荐(0)
摘要:
上部分讲了些跟数据有关的概念,这部分来聊一聊操作。这里讲的操作其实是对数据预处理的操作。大概有以下这些操作。 数据聚合(Aggregation) 数据取样(Sampling) 数据降维 属性子集选取 构建属性 离散化和二分化属性 变量转换数据聚合 有个思想叫做"less is more",即所谓删繁... 阅读全文
posted @ 2015-05-12 10:05
曾可爱
阅读(170)
评论(0)
推荐(0)
摘要:
数据数据集通常表示成数据个体(Data Object)的集合。一条数据记录就是一个个体。常见的数据表示方式可以是表格的:Student IDGenderScore1Male42Female53female3.5上表中横向的一行就是一个Data Object了,而 Student ID,Gender,... 阅读全文
posted @ 2015-05-12 10:02
曾可爱
阅读(394)
评论(0)
推荐(0)

浙公网安备 33010602011771号