特征工程 - 基础概念

一、基本概念

  特征工程,得到原始数据集之后,进行机器学习或数据分析之前。

 

  数据集由数据对象组成,数据对象代表一个实体。

    数据对象又称样本、实例、数据点。

  数据库中的行对应数据对象列对应属性

  属性是一个数据字段,代表数据对象的一个属性,属性又称为维、特征、变量。

  属性包括:
    标称属性(nominal attribute)
    二元属性(binary attribute)
    序数属性(ordinal attribute)
    数值属性(numeric attribute)
    离散属性、连续属性

  • 标称属性  值是枚举的,可以用数字表示这些符号或名称。如果是字符串,则不能直接输入某些算法中,需要进行转换,如:OneHot。(注意!转换成数值属性后,即出现了大小比较,但标称属性本身并没有大小的区别)
  • 二元属性  标称属性的特例,也是一种布尔属性,对应0和1两个状态,分对称和非对称。如抛硬币的结果,属性的2个状态结果是同等重要的,视作对称的二元属性。如病毒检测的阳性和阴性结果,明显阳性更重要,视作非对称的二元属性。为方便,用1对重要结果,另一个用0。同标称属性,在进行某些算法学习时,需要将二元属性转换为0和1的形式。
# 使用DataFrame的replace方法,将N和Y替换成0和1。
df.replace({'N': 0, 'Y': 1})

# 也可以使用map方法。
mapping = {'N': 0, 'Y': 1}
df['属性名'] = df['属性名'].map(mapping)

# 使用scikit-learn的LabelEncoder方法。
le = LabelEncoder()
temp = le.fit_transform(df['属性名'])

# 显示自动分类的结果。
le.classes_

# LabelEncoder还能实现反向取值。
le.incerse_transform(temp)
  • 序数属性  值之间存在有意义的序或秩评定,但差值是没意义的。如上衣的尺寸有S、M、L、XL,可以用数字如1、2、3、4分别对应取值。由于序数属性是有序的,它的中位数是有意义的,因此序数属性的中心趋势度量可以是众数和中位数。
  • 数值属性  用整数或实数值表示,如年龄。可以是区间标度的或比率标度的。区分区间标度和比率标度的原则是该属性是否有固有的零点,如摄氏温度没有固定的零点,其比值没有意义。所以是区间标度属性,而开式温度有固有的零点,比值有意义,是比率标度属性。

 

二、数据类型

  数据类型,分为4类:

  • 定性    表示性质、表示类别
    • 无序    性质、类别之间无关系    
    • 有序    性质、类别之间有优劣  
  • 定量    表示数值 
    • 离散    整数,不存在“半个”的意义
    • 连续  可以有小数     

 

  举例理解 ↓↓↓
    定性无序:城市、风格、结构 等等
    定性有序:成绩(ABCD)、产品标准 等等
    定量离散:某数量、某销量 等等
    定量连续:速度、价格 等等

 

三、数据的统计方法*

  根据数据类型,使用不同的统计方法,查看数据情况。

  定性无序:频数或频率,众数,异众比率,列联表分析,卡方检验 等
  定性有序:中位数,四分位差,等级相关系数 等非参数分析
  定量:各种统计量,参数估计和检验 等

 

四、数据的度量尺度

  根据实体,描述实体的数据存在不同类型,测量不同数据类型的尺度不一。

  度量尺度(Scale of measurement),分为4类:

  • 定类数据  Nominal Data 
  • 定序数据  Ordinal Data 
  • 定距数据  Interval Data 
  • 定比数据  Ratio Data 

   

  中文释义不保证准确性

  中心测度(measure of center)-- 描述数据集中趋势:
    均值、中位数、众数、中列数

    中列数是数据集的最大值和最小值的平均值。

  变差测度(measure of variation)-- 描述数据离散趋势:
    极差、四分位数、四分位数极差(IQR)、五数概括、方差、标准差

    五数概括由中位数( Q2 )、四分位数 Q1、Q3 、最大值和最小值组成。

 

  • 定类数据:没有数学意义,有$ = $和$ \neq $,$ \in $和$ \notin $的关系。

    测度中心:模

  • 定序数据:有数值大小意义,有$ \lt $和$ \gt $的关系。

    测度中心:中位数

  • 定距数据:有数值差的意义,无零点参考,有$ + $和$ - $的关系。

    测度中心:算数平均值、标准差

  • 定比数据:有数值比的意义,有零点参考,有$ \times $和$ \div $的关系。

    测度中心:几何平均值

 

  层次关系

    定比数据 $ \gt $ 定序数据 $ \gt $ 定距数据 $ \gt $ 定比数据

  高层次度量尺度可由低层次的表示,也可以使用低层次的测度中心描述趋势。

  大多数常用参数统计方法要求度量是定居数据(或更强尺度),而大多数非参数统计方法通常采用定类数据和定序数据。

 

五、数据的显示

  通过绘图,直观查看数据的趋势、走势。

  • 直方图:数量多少
  • 散点图:分布情况,相对关系
  • 饼图:占比
  • 分位数图:单属性变量的分布情况
  • 箱线(盒)图:分布情况,显示五数概括,显示离群值
  • 分位数-分位数图(QQ图):分布情况
  • 热力图:属性间的相关性

  基本数据描述(中心测度和变差测度)和图形统计显示(分位数图、直方图和散点图)提供了数据总体情况的有价值洞察。

  有助于识别噪声和离群点,它们对于数据清理特别有用。 

六、数据的质量

  • 内容质量:相关性、准确性、及时性
  • 表述质量:可比性、可衔接性、可理解性
  • 约束标准:可取得性、有效性

 

1、内容质量

  统计数据质量的主要特征,缺少其中任何一个,统计数据就失去了转化为信息的性质和基本作用。

 

  • 相关性

    数据要与研究问题相关,相关性的评价是主观的,随研究问题而变。

  • 准确性

    测量到的数据与真实情况的接近程度。使用统计误差来衡量,分系统误差 和 随机误差。

    完全准确的测量受成本、环境等限制。

    关键:用户接受误差的程度。

  • 及时性

    有些问题,需要数据能反映现在当下的情况,而不是过去的。

    一般过时的数据,无参考或参考价值不大。

 

2、表述质量

  统计数据需要表述,内容质量高的数据,要注意不同属性的关系,并需要充分利用,让用户可以理解。

  如:数据内容正确,但表述不清、不充分,会影响整套数据质量,或误解。

  • 可比性

    数据在时间上、空间上的可比程度,要求统计的概念和方法在时间上相对稳定。

    在不同地区使用统一的统计制度方法和分类标准。

    如:两个省采用不同的 统计人口方法,两个国家使用不同的 收入划分标准。

  • 可衔接性

    同一统计机构内部不同统计调查项目不同机构之间以及与国际组织之间数据的衔接程度。

    统一的统计框架体系、 分类标准,统一的方法编制,统一的方法和程序,采用国际统计标准。

    如:国际标准时间。

  • 可理解性

    能让用户正确理解和使用的程度,用户必须了解数据的性质等。这就要求统计机构在提供数据时附带对数据的补充说明。

 

3、约束标准

  • 可取得性

    用户从统计部门取得数据的便利程度,统计数据必须以一种用户方便使用且能够负担的形式提供给用户。

  • 有效性

    利用数据产生的效益大于提供该数据的成本,若情况相反则不值得。

    应尽可能降低统计数据的生产费用,提高效率,在质量不受大影响的前提下。

 

七、数据的相似性

  → 讲解链接

 

 


 

posted @ 2023-12-07 18:21  paramotor  阅读(148)  评论(0)    收藏  举报