数据挖掘:概念与技术

2.1 数据对象和属性类型

  数据集是由数据对象构成的。

  数据对象用属性来描述。

  包含单个属性的数据分布被称为单变量的分布;包含2个属性的被称为二变量的分布。属性的类型是有属性可取的值决定的,有名词、二进制型、顺序值或者数值类型。
2.12 名词属性的值是事物的标号或者名称。每一个值表示类别、编码或者状态。因此名词属性被称为是分类。值没有次序信息。在计算机领域,也可以称为枚举型。
2.13 二进制属性是只有两个类别或状态:0和1.0一般表示属性缺失,1表示存在。二进制属性也即bool型,两个状态表示真和假。

2.14 次序属性具有次序或者级别的意义。但是相邻值的级别未知。

2.15  数值型属性:数值型属性是定量的,是可测量的数值,为整数或实数。分为间隔尺度和比例尺度。
间隔尺度使用同等大小的单元来衡量。间隔尺度属性有大小,可以是正,0或者负值。除了能对属性值排序,还可以比较和衡量不同值的差值大小。
比例尺度属性是数值型的,有固定的0值。如果一个测量是比例尺度,则可以以比率来衡量两个值,也可以计算值的差值,以及中值,均数和众数。

2.16 离散和连续属性
离散属性有有限的或者可数的值集合,可能不能表示为整数。离散值可能是数值型的,比如二进制的0和1,年龄的0到110.一个属性是可数无限的如果可能的值集合是无限的但是值和自然数有一一对应的关系。
2.2 数据的基本统计描述

2.21 中心性度量:平均数,中位数,众数

对于偏斜(不对称)的数据,使用中值(中位数)是更好的中心性测量。中值是一系列排序好的数据的中点的值。

众数是一系列数据中出现频率最高的值。众数可以是定性的也可以是定量的属性。有可能好几个不同的值都出现大量的频率,导致众数不止一个。众数有1个、2个、3个的分别称为unimodal(单峰值), bimodal(二峰值), trimodal(三峰值).
中列数是数据集中最大值和最小值的平均值。可以用来评估数值型数据的中心性趋势。


2.2.2 数据分散性的度量:极差、四分位数、方差、标准差、四分位差
数据集的极差表示的是最大值和最小值的差。

数据点称为分位点。分位点是数据分布上有规律率的间隔的数据点,将其分成相等大小的连续的数据集。
给定数据分布的第K个q-分位点x, 是至多k/q的数据值小于x,至多q-k/q的数据值大于x,k是大于0小于q的整数。 共有q-1个q-分位点。2-分位点是把数据分布分割成较小值和较大值两半的数据点。即中位数。4-分位点是把数据分布分成4个等量大小的3个数据点,每一个部分表示数据分布的1/4.它们被称为四分位数。
2.2.3 数据基本统计特征的图形化描述
分位数点图
直方图
散点图和数据相关性
2.3 数据可视化

2.3.1 面向像素的可视化技术
2.3.2 几何投影可视化技术
2.3.3 基于图标的可视化技术
2.3.4 分层可视化技术
2.3.5 复杂数据和关系的可视化
2.4 衡量数据相似性和相异性

2.4.1 数据相异性矩阵
2.4.2 名词属性的相邻性度量
2.4.3 二进制属性的相邻性度量
2.4.4 数值型数据的相异性:Minkowski距离
2.4.5 次序属性的相邻性度量
2.4.6 混合类型的相异性
2.4.7 余弦相似性

posted @ 2018-08-08 09:57  Element_01  阅读(254)  评论(0编辑  收藏  举报