特征工程 - 基础概念
一、基本概念
特征工程,得到原始数据集之后,进行机器学习或数据分析之前。
数据集由数据对象组成,数据对象代表一个实体。
数据对象又称样本、实例、数据点。
数据库中的行对应数据对象,列对应属性。
属性是一个数据字段,代表数据对象的一个属性,属性又称为维、特征、变量。
属性包括:
标称属性(nominal attribute)
二元属性(binary attribute)
序数属性(ordinal attribute)
数值属性(numeric attribute)
离散属性、连续属性
- 标称属性 值是枚举的,可以用数字表示这些符号或名称。如果是字符串,则不能直接输入某些算法中,需要进行转换,如:OneHot。(注意!转换成数值属性后,即出现了大小比较,但标称属性本身并没有大小的区别)
- 二元属性 标称属性的特例,也是一种布尔属性,对应0和1两个状态,分对称和非对称。如抛硬币的结果,属性的2个状态结果是同等重要的,视作对称的二元属性。如病毒检测的阳性和阴性结果,明显阳性更重要,视作非对称的二元属性。为方便,用1对重要结果,另一个用0。同标称属性,在进行某些算法学习时,需要将二元属性转换为0和1的形式。
# 使用DataFrame的replace方法,将N和Y替换成0和1。 df.replace({'N': 0, 'Y': 1}) # 也可以使用map方法。 mapping = {'N': 0, 'Y': 1} df['属性名'] = df['属性名'].map(mapping) # 使用scikit-learn的LabelEncoder方法。 le = LabelEncoder() temp = le.fit_transform(df['属性名']) # 显示自动分类的结果。 le.classes_ # LabelEncoder还能实现反向取值。 le.incerse_transform(temp)
- 序数属性 值之间存在有意义的序或秩评定,但差值是没意义的。如上衣的尺寸有S、M、L、XL,可以用数字如1、2、3、4分别对应取值。由于序数属性是有序的,它的中位数是有意义的,因此序数属性的中心趋势度量可以是众数和中位数。
- 数值属性 用整数或实数值表示,如年龄。可以是区间标度的或比率标度的。区分区间标度和比率标度的原则是该属性是否有固有的零点,如摄氏温度没有固定的零点,其比值没有意义。所以是区间标度属性,而开式温度有固有的零点,比值有意义,是比率标度属性。
二、数据类型
数据类型,分为4类:
- 定性 表示性质、表示类别
- 无序 性质、类别之间无关系
- 有序 性质、类别之间有优劣
- 定量 表示数值
- 离散 整数,不存在“半个”的意义
- 连续 可以有小数
举例理解 ↓↓↓
定性无序:城市、风格、结构 等等
定性有序:成绩(ABCD)、产品标准 等等
定量离散:某数量、某销量 等等
定量连续:速度、价格 等等
三、数据的统计方法*
根据数据类型,使用不同的统计方法,查看数据情况。
定性无序:频数或频率,众数,异众比率,列联表分析,卡方检验 等
定性有序:中位数,四分位差,等级相关系数 等非参数分析
定量:各种统计量,参数估计和检验 等
四、数据的度量尺度
根据实体,描述实体的数据存在不同类型,测量不同数据类型的尺度不一。
度量尺度(Scale of measurement),分为4类:
- 定类数据 Nominal Data
- 定序数据 Ordinal Data
- 定距数据 Interval Data
- 定比数据 Ratio Data
中文释义不保证准确性
中心测度(measure of center)-- 描述数据集中趋势:
均值、中位数、众数、中列数
中列数是数据集的最大值和最小值的平均值。
变差测度(measure of variation)-- 描述数据离散趋势:
极差、四分位数、四分位数极差(IQR)、五数概括、方差、标准差
五数概括由中位数( Q2 )、四分位数 、Q1、Q3 、最大值和最小值组成。
- 定类数据:没有数学意义,有$ = $和$ \neq $,$ \in $和$ \notin $的关系。
测度中心:模
- 定序数据:有数值大小意义,有$ \lt $和$ \gt $的关系。
测度中心:中位数
- 定距数据:有数值差的意义,无零点参考,有$ + $和$ - $的关系。
测度中心:算数平均值、标准差
- 定比数据:有数值比的意义,有零点参考,有$ \times $和$ \div $的关系。
测度中心:几何平均值
层次关系
定比数据 $ \gt $ 定序数据 $ \gt $ 定距数据 $ \gt $ 定比数据
高层次度量尺度可由低层次的表示,也可以使用低层次的测度中心描述趋势。
大多数常用参数统计方法要求度量是定居数据(或更强尺度),而大多数非参数统计方法通常采用定类数据和定序数据。
五、数据的显示
通过绘图,直观查看数据的趋势、走势。
- 直方图:数量多少
- 散点图:分布情况,相对关系
- 饼图:占比
- 分位数图:单属性变量的分布情况
- 箱线(盒)图:分布情况,显示五数概括,显示离群值
- 分位数-分位数图(QQ图):分布情况
- 热力图:属性间的相关性
基本数据描述(中心测度和变差测度)和图形统计显示(分位数图、直方图和散点图)提供了数据总体情况的有价值洞察。
有助于识别噪声和离群点,它们对于数据清理特别有用。
六、数据的质量
- 内容质量:相关性、准确性、及时性
- 表述质量:可比性、可衔接性、可理解性
- 约束标准:可取得性、有效性
1、内容质量
统计数据质量的主要特征,缺少其中任何一个,统计数据就失去了转化为信息的性质和基本作用。
- 相关性
数据要与研究问题相关,相关性的评价是主观的,随研究问题而变。
- 准确性
测量到的数据与真实情况的接近程度。使用统计误差来衡量,分系统误差 和 随机误差。
完全准确的测量受成本、环境等限制。
关键:用户接受误差的程度。
- 及时性
有些问题,需要数据能反映现在当下的情况,而不是过去的。
一般过时的数据,无参考或参考价值不大。
2、表述质量
统计数据需要表述,内容质量高的数据,要注意不同属性的关系,并需要充分利用,让用户可以理解。
如:数据内容正确,但表述不清、不充分,会影响整套数据质量,或误解。
- 可比性
数据在时间上、空间上的可比程度,要求统计的概念和方法在时间上相对稳定。
在不同地区使用统一的统计制度方法和分类标准。
如:两个省采用不同的 统计人口方法,两个国家使用不同的 收入划分标准。
- 可衔接性
同一统计机构内部不同统计调查项目、不同机构之间以及与国际组织之间数据的衔接程度。
统一的统计框架体系、 分类标准,统一的方法编制,统一的方法和程序,采用国际统计标准。
如:国际标准时间。
- 可理解性
能让用户正确理解和使用的程度,用户必须了解数据的性质等。这就要求统计机构在提供数据时附带对数据的补充说明。
3、约束标准
- 可取得性
用户从统计部门取得数据的便利程度,统计数据必须以一种用户方便使用且能够负担的形式提供给用户。
- 有效性
利用数据产生的效益大于提供该数据的成本,若情况相反则不值得。
应尽可能降低统计数据的生产费用,提高效率,在质量不受大影响的前提下。
七、数据的相似性
→ 讲解链接

浙公网安备 33010602011771号