随笔分类 - 特征工程
摘要:
一、基本概念 规范化包括对数据进行标准化、区间化和归一化等等。 标准化是让数据变为正态分布。 区间化是让数据限定在指定区间。 归一化是让数据限定在指定单位中。(这个描述可能有点抽象,不太准确) 因为不同特征的量纲不同,所以不能进行直接比较,如:A标准满分为100,但B标准满分为10,A和B就不能直接
阅读全文
一、基本概念 规范化包括对数据进行标准化、区间化和归一化等等。 标准化是让数据变为正态分布。 区间化是让数据限定在指定区间。 归一化是让数据限定在指定单位中。(这个描述可能有点抽象,不太准确) 因为不同特征的量纲不同,所以不能进行直接比较,如:A标准满分为100,但B标准满分为10,A和B就不能直接
阅读全文
摘要:
一、基本概念 特征变换就是对数据进行规范化处理,包括对数据进行特征二值化、标准化、离散化、稀疏化处理等等,达到适用于挖掘的目的。 特征数值化 特征二值化 OneHot编码 数据变换 特征离散化 特征规范化 特征数值化、特征二值化和OneHot编码,都是将标称属性和二元属性的数据,转化为数值属性,满足
阅读全文
一、基本概念 特征变换就是对数据进行规范化处理,包括对数据进行特征二值化、标准化、离散化、稀疏化处理等等,达到适用于挖掘的目的。 特征数值化 特征二值化 OneHot编码 数据变换 特征离散化 特征规范化 特征数值化、特征二值化和OneHot编码,都是将标称属性和二元属性的数据,转化为数值属性,满足
阅读全文
摘要:
一、基本概念 Concept Hierarchy Operation 概念分层更直观的描述和说明数据,是用户更容易理解。 将数据组织成树状结构,其中层次结构的每一层都代表一个比其下一层更通用的概念。 相同的数据可以具有不同的粒度或细节,并且通过以层次结构的方式组织数据,更容易地理解和执行分析。 具有
阅读全文
一、基本概念 Concept Hierarchy Operation 概念分层更直观的描述和说明数据,是用户更容易理解。 将数据组织成树状结构,其中层次结构的每一层都代表一个比其下一层更通用的概念。 相同的数据可以具有不同的粒度或细节,并且通过以层次结构的方式组织数据,更容易地理解和执行分析。 具有
阅读全文
摘要:
一、基本介绍 Data Reduction 数据规约(数据缩减)是一种以更小的空间获得压缩版本或数据表示的方法,这种压缩数据保持了数据的完整性,并生成了与实际数据类似的分析。 这里不纠结数据规约的具体方法是如何分类的,只关注方法本身。 二、降维 Dimensionality Reduction 下面
阅读全文
一、基本介绍 Data Reduction 数据规约(数据缩减)是一种以更小的空间获得压缩版本或数据表示的方法,这种压缩数据保持了数据的完整性,并生成了与实际数据类似的分析。 这里不纠结数据规约的具体方法是如何分类的,只关注方法本身。 二、降维 Dimensionality Reduction 下面
阅读全文
摘要:
一、基本介绍 Hot/Cold Deck imputation 卡填充分两种: 热卡填充:在完整数据中找到一个与它最相似的样本,用这个样本来填充当前缺失的属性值。 冷卡填充:通过其他数据集找到能填充缺失部分的值。如:去年同季度的数据,填补本年同季度的缺失值。或不同机构对统一问题的调查数据。 主要讲解
阅读全文
一、基本介绍 Hot/Cold Deck imputation 卡填充分两种: 热卡填充:在完整数据中找到一个与它最相似的样本,用这个样本来填充当前缺失的属性值。 冷卡填充:通过其他数据集找到能填充缺失部分的值。如:去年同季度的数据,填补本年同季度的缺失值。或不同机构对统一问题的调查数据。 主要讲解
阅读全文
摘要:
一、数据预处理的步骤 数据清洗 → 数据集成 → 数据规约 → 特征变换 二、数据清洗 填补缺失值、识别和删除离群点、光滑噪声数据,解决数据不一致性 1、缺失值处理 根据属性的分布特性及重要性(信息量、预测能力)采用不同的方法 → 详细讲解链接 2、离群点处理 常指特定分布区域外的数据,也称噪声 伪
阅读全文
一、数据预处理的步骤 数据清洗 → 数据集成 → 数据规约 → 特征变换 二、数据清洗 填补缺失值、识别和删除离群点、光滑噪声数据,解决数据不一致性 1、缺失值处理 根据属性的分布特性及重要性(信息量、预测能力)采用不同的方法 → 详细讲解链接 2、离群点处理 常指特定分布区域外的数据,也称噪声 伪
阅读全文
摘要:
如图所示 正态分布 $\mu$表示平均值 $\sigma$表示方差 ① 蓝色区域 是 和 $\mu$相差 1 个$\sigma$范围内的,占总体的 68.26% ②蓝色 + 红色区域 是 和 $\mu$相差 2 个$\sigma$范围内的,占总体的 95.44% ③蓝色 + 红色 + 黄色区域 是
阅读全文
如图所示 正态分布 $\mu$表示平均值 $\sigma$表示方差 ① 蓝色区域 是 和 $\mu$相差 1 个$\sigma$范围内的,占总体的 68.26% ②蓝色 + 红色区域 是 和 $\mu$相差 2 个$\sigma$范围内的,占总体的 95.44% ③蓝色 + 红色 + 黄色区域 是
阅读全文
摘要:
一、数据缺失的原因 暂时无法获取 人为遗漏 设备等物理原因 样本对象不具备该属性 与分析的目标无关 获取代价太大 系统实时性能要求较高 二、数据缺失机制 常将不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量。 (变量又称维、特征、属性) 随机缺失(missing at rando
阅读全文
一、数据缺失的原因 暂时无法获取 人为遗漏 设备等物理原因 样本对象不具备该属性 与分析的目标无关 获取代价太大 系统实时性能要求较高 二、数据缺失机制 常将不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量。 (变量又称维、特征、属性) 随机缺失(missing at rando
阅读全文
摘要:
一、基本概念 特征工程,得到原始数据集之后,进行机器学习或数据分析之前。 数据集由数据对象组成,数据对象代表一个实体。 数据对象又称样本、实例、数据点。 数据库中的行对应数据对象,列对应属性。 属性是一个数据字段,代表数据对象的一个属性,属性又称为维、特征、变量。 属性包括: 标称属性(nomina
阅读全文
一、基本概念 特征工程,得到原始数据集之后,进行机器学习或数据分析之前。 数据集由数据对象组成,数据对象代表一个实体。 数据对象又称样本、实例、数据点。 数据库中的行对应数据对象,列对应属性。 属性是一个数据字段,代表数据对象的一个属性,属性又称为维、特征、变量。 属性包括: 标称属性(nomina
阅读全文

浙公网安备 33010602011771号