数据挖掘概念与技术 - chapter 2 - 认识数据

数据特性:

均值 中位数 众数 中心趋势度量

这些基本统计量有助于 数据预处理时 填补空缺值、光滑噪声、识别离群点。

考察数据对象的"相似性/相异性" 可以用于检测最近邻分类

数据对象:一个实体(样本 实例 数据点)

属性:一个数据字段 特征 变量 维度 单变量 双变量

标称属性:与名称相关,是一些符号或者事物的名称,代表某种类别、编码或者状态,是分类的;在计算机科学中可视为枚举类型。

标称属性的数学运算没有意义,一般不定量使用;可以观察”众数“,是一种中心趋势度量。

二元属性:一种标称属性,只有两个类别或者状态:0或者1,0通常表示属性不出现,1表示出现。二元属性称为“布尔属性”,对应ture与false值。

对称的二元属性:如果两种状态具有等价值并且携带相同的权重,关键结果用0或者1编码 无偏好(如男或者女)

非对称的二元属性:状态结果不是同样重要,用1用于最重要的结果。用0编码另一个结果。

序数属性:可能的值之间具有意义的序或者秩,但是相继值之间的差未知。如:饮料店的值小、中 、大,具有有意义的先后次序;grade:A、B、C、D等,职位可以按照顺序枚举,对于教师按照列兵、军事、下士等。序数属性是有用的,一般按照顺序排列:如0-很不满意,1-不太满意,2-中性,3-满意,4-和满意。

序数属性可以通过数质量划分优先有序类别,将数值属性离散化得到。

中心趋势可以使用众数或者中位数进行表示,不能用于定义均值。

数值属性:提供对象的定量度量,属性可以以区间的标度或者比率标度的。

区间标度属性:用相等的单位尺度度量,区间属性的值有序,可以为0、或者负值,允许我们比较与定量评估值之间的差。如温度(区间标度)除了中心趋势度度量中位数与众数之外,可以计算他们的均值。

比率标度属性:比率标度:是具有固有零点的数值属性,如果度量是比率标度,可以说一个值是另一个的倍数或者比率。值是有序的,可以计算值之间的差、均值、中位数、众数。如员工工作年限、字数(有计数属性的特征)、重量、货币量等。

离散属性与连续属性:使用许多方法组织属性类型,类型不是互斥的。开发分类算法通常把属性分成离散或者连续,离散属性具有有限或者无限可数个值。如果属性不是离散的,则是连续的。经典意义下,连续值是实数,数值类型是整数或者实数。

 

数据基本统计描述

中心趋势度量:均值、中位数、众数、中列数

均值:加权算数均值、加权平均,对极端值很敏感,可以使用截尾均值进行观测排序。

中位数:是有序数据值的均值,把数据较高的一半与较低的一半分开。

n如果是偶数,则中位数不唯一,是最中间的两个值与他们之间任意值。

当观测的数量很大时,中位数的计算开销非常大,对于数值属性可以计算中位数的近似值。

假设他们xi值划分区间,并且对每个区间频率可以将人划分为区间,每个区间频率数据值个数,令包含中位数频率的区间为中位数区间。

众数:集合里频繁出现的词语,可以对定性与定量属性确定众数,最高频率对应多个不同值,导致多个众数,具有一个、两个、三个众数的数据集成为单峰的、双峰的、三峰的,具有两个或者更多众数的数据集为多峰的;极端情况下没如果每个数据只出现一次,它没有众数。

中列数:完全对称的单峰频率曲线中,均值、中位数、众数都是相同的中心值

大部分应用中,数据是不对称的,可能是正倾斜,众数出现在小于中位数的值上,或者是负倾斜的

 

除了估计均值中心趋势之外,可以从以下维度了解数据散布:极差、四分位数、四分位数极差、五数概括、盒图、数据的标准差与方差

可以通过基本的统计描述:条图、饼图、线图进行描述。

极差:最大值与最小值的差

分位数:取自数据分布每间隔一定位置上的点,把数据划分成基本上大小相等的连贯集合。

四分位数:把数据划分为4个相等部分

100-分位数:划分为100个相等部分

四分位数极差:IQR =Q3-Q1

 

通常识别离群点的规则:挑选落在第三个四分位数之上或者第一个四分位数下至少1.5*IQR的值

五数概括:由中位数Q2、四分位数Q1与Q3、最小与最大观测值组成,按照次序minimum、Q1、Median、Q3、Maximum给出。

盒图:一种流行的分布直观表示 体现了五数概括

-盒的端点一般在四分位数上,使得盒的长度为四分位数极差IQR

-中位数用盒内的线标记

-盒外的两条线延伸到最小与最大观测值

 

方差与标准差:用于描述数据散度的程度

方差:单样本减去观测均值 平方 求和 除以总样本

标准差:方差的平方根

 

标准差 用于度量均值的发散,仅仅选择均值作为中心度量时使用

仅当不存在发散的时候,所有的观测值都有相同值时为0 (很好的数据集发散指示器)

 

分位数图:观察单变量数据最有效的方法 可以基于分位数比较Q1、中位数、Q3、其他fi值

分位数-分位数图:q-q图 对着另一个对应分数绘制单个变量分布的分位数,是一种强有力的可视化工具,可以使得用户观察从一个分布到另一个分布是否有漂移。

 

直方图:频率直方图,概括给定属性X的分布的图形画法。如果X是标称的,对于每一个已知值,画一个柱或者竖形条,代表高度,X值出现的频率。

桶:对于比较单变量观测组可能不如分位数图 q-q图

 

散点图:确定两个数值变量之间看山去是否存在联系、模式或者趋势的最有效图形方法之一,为了构造散点图可以每一个值对视为一个代数坐标对。

散点图是观测双变量数据的有效方法,可以用于观察点簇与离群点,考察相关性联系可能性。两个属性是X与Y,如果一个属性蕴含另外一个则是相关的,相关可能是正相关、负相关(零相关)。

有助于识别噪声与离群点,对于数据清理很有用。

 

数据可视化

通过图形表示清晰有效数据。

基于像素的可视化技术:热力图

几何投影技术:帮助用户发现多维空间数据集的有趣投影。

基于图符的可视化技术:用少量图符表示多维数据值

人物线条画 切尔诺夫脸

标签云

 

数据的相似性与相异性(邻近性):相似值越高,对象之间的相似性越大

 

数据矩阵:对象 属性矩阵 一行对应一个对象 一列代表一个属性 二模矩阵

相异性矩阵:对象-对象结构 存放了对象两两之间的邻近度 包含一类实体,单模矩阵

sim(i,j)=1-d(i,j)

对象之间的相异性:可以用不匹配率来计算

 

二元属性的邻近性度量:考察对称与非对称二元属性刻画对象间的相异性与相似性度量

jaccard 二元属性之间的相异性

 

 

最流行的距离度量:欧几里得距离

点间差的平方 和 开平方

曼哈顿距离

点间 绝对值 和

 

距离的数学性质:

非负性 同一性 对称性 三角不等式

闵可夫斯基距离 :点间差的h方和 开h方 范数

当p=1的时候,表示曼哈顿距离;p=2的时候,表示欧几里得距离

h趋向于无穷的时候,是上确界距离:使用相同的数据对象记录,对象的最大值差,为上确界距离

此外还可以附加权重,计算 加权的欧几里得距离

序数属性的邻近性度量

可以通过将数值属性离散化后,将其组织为排位

数值属性的值域可以划分为有限个类别,每个序数属性都有不同的状态数,序数型属性间的相异性

将数据离散化后使用欧几里得距离进行相异性矩阵的计算

 

混合类型属性的相异性

可取方法:将所有类型一起进行兼容做聚类分析

混合类型的相异性

考虑所有属性,具有不同类型:单独算类型相异性 后 累加 求单点平均

 

余弦相似性

在稀疏度特别高的情况下,对于稀疏数值数据,需要忽略0匹配的数值数据度量,所以提出使用余弦相似性 进行计算

image-20240124190301604

欧几里得范数:自身平方和开平方

余弦值越接近1,夹角越小,向量之间匹配度越大,是非度量测度

 

当属性是二值属性时,余弦相似度函数可以共享特征或者属性解释

表示所共有的属性个数与比率,Tanimoto 系数/Tanimoto距离 ,常用于信息检索 生物学分类。

**近似中位数的计算

中位数是一组数据中的中间值,可以用于描述数据的集中趋势。以下是几种常见的中位数近似计算方法:

  1. 中位数的估计值可以通过对数据进行排序,然后选择排序后的中间值来获得。如果数据量很大,这种方法可能会变得非常耗时

  2. 中位数的估计值也可以通过使用分位数来计算。例如,可以使用四分位数来估计中位数。四分位数将数据分为四个等分,其中第二个等分即为中位数的估计值。

  3. 另一种方法是使用插值法来估计中位数。插值法基于数据的分布情况,通过在数据点之间进行插值来估计中位数的位置。

  4. 还可以使用统计模型来估计中位数。例如,可以使用线性回归模型或非参数模型来拟合数据,并从模型中获取中位数的估计值

关于平衡准确性与复杂性的启发式策略,一种常见的方法是使用加权中位数。加权中位数考虑了数据点的权重,使得在计算中位数时更加平衡准确性和复杂性。通过调整权重,可以根据具体情况来平衡准确性和复杂性的需求。

数据点的范数:是用来衡量数据点的大小或者长度的一种数学概念。在向量空间中,数据点可以表示为一个向量,而范数就是对这个向量进行度量的方法。

常见的范数有多种,包括0范数、1范数、2范数等。不同的范数有不同的定义和计算方式。

  • 0范数:表示向量中非零元素的个数。即向量中非零元素的个数。

  • 1范数:表示向量中各个元素绝对值之和。即向量中各个元素绝对值之和。

  • 2范数:表示向量的欧几里德长度。即向量各个元素的平方和的平方根。

posted @ 2024-01-30 18:32  -DP-  阅读(13)  评论(0编辑  收藏  举报