摘要: 特征工程 - 基础概念 一、基本概念 特征工程,得到原始数据集之后,进行机器学习或数据分析之前。 数据集由数据对象组成,数据对象代表一个实体。 数据对象又称样本、实例、数据点。 数据库中的行对应数据对象,列对应属性。 属性是一个数据字段,代表数据对象的一个属性,属性又称为维、特征、变量。 属性包括: 标称属性(nomina 阅读全文
posted @ 2023-12-07 18:21 paramotor 阅读(148) 评论(0) 推荐(0)
摘要: 特征工程 - 数据规范化 一、基本概念 规范化包括对数据进行标准化、区间化和归一化等等。 标准化是让数据变为正态分布。 区间化是让数据限定在指定区间。 归一化是让数据限定在指定单位中。(这个描述可能有点抽象,不太准确) 因为不同特征的量纲不同,所以不能进行直接比较,如:A标准满分为100,但B标准满分为10,A和B就不能直接 阅读全文
posted @ 2023-12-27 23:03 paramotor 阅读(133) 评论(0) 推荐(0)
摘要: 特征工程 - 特征变换 一、基本概念 特征变换就是对数据进行规范化处理,包括对数据进行特征二值化、标准化、离散化、稀疏化处理等等,达到适用于挖掘的目的。 特征数值化 特征二值化 OneHot编码 数据变换 特征离散化 特征规范化 特征数值化、特征二值化和OneHot编码,都是将标称属性和二元属性的数据,转化为数值属性,满足 阅读全文
posted @ 2023-12-22 15:10 paramotor 阅读(383) 评论(0) 推荐(0)
摘要: 特征工程 - 概念分层(待) 一、基本概念 Concept Hierarchy Operation 概念分层更直观的描述和说明数据,是用户更容易理解。 将数据组织成树状结构,其中层次结构的每一层都代表一个比其下一层更通用的概念。 相同的数据可以具有不同的粒度或细节,并且通过以层次结构的方式组织数据,更容易地理解和执行分析。 具有 阅读全文
posted @ 2023-12-22 15:10 paramotor 阅读(93) 评论(0) 推荐(0)
摘要: 特征工程 - 数据规约 一、基本介绍 Data Reduction 数据规约(数据缩减)是一种以更小的空间获得压缩版本或数据表示的方法,这种压缩数据保持了数据的完整性,并生成了与实际数据类似的分析。 这里不纠结数据规约的具体方法是如何分类的,只关注方法本身。 二、降维 Dimensionality Reduction 下面 阅读全文
posted @ 2023-12-22 13:12 paramotor 阅读(332) 评论(0) 推荐(0)
摘要: 特征工程 - 热卡填充 一、基本介绍 Hot/Cold Deck imputation 卡填充分两种: 热卡填充:在完整数据中找到一个与它最相似的样本,用这个样本来填充当前缺失的属性值。 冷卡填充:通过其他数据集找到能填充缺失部分的值。如:去年同季度的数据,填补本年同季度的缺失值。或不同机构对统一问题的调查数据。 主要讲解 阅读全文
posted @ 2023-12-18 23:12 paramotor 阅读(631) 评论(0) 推荐(0)
摘要: 特征工程 - 数据预处理 一、数据预处理的步骤 数据清洗 → 数据集成 → 数据规约 → 特征变换 二、数据清洗 填补缺失值、识别和删除离群点、光滑噪声数据,解决数据不一致性 1、缺失值处理 根据属性的分布特性及重要性(信息量、预测能力)采用不同的方法 → 详细讲解链接 2、离群点处理 常指特定分布区域外的数据,也称噪声 伪 阅读全文
posted @ 2023-12-13 13:48 paramotor 阅读(195) 评论(0) 推荐(0)
摘要: 3 σ 原则 如图所示 正态分布 $\mu$表示平均值 $\sigma$表示方差 ① 蓝色区域 是 和 $\mu$相差 1 个$\sigma$范围内的,占总体的 68.26% ②蓝色 + 红色区域 是 和 $\mu$相差 2 个$\sigma$范围内的,占总体的 95.44% ③蓝色 + 红色 + 黄色区域 是 阅读全文
posted @ 2023-12-13 00:26 paramotor 阅读(182) 评论(0) 推荐(0)
摘要: 特征工程 - 缺失值处理 一、数据缺失的原因 暂时无法获取 人为遗漏 设备等物理原因 样本对象不具备该属性 与分析的目标无关 获取代价太大 系统实时性能要求较高 二、数据缺失机制 常将不含缺失值的变量称为完全变量,数据集中含有缺失值的变量称为不完全变量。 (变量又称维、特征、属性) 随机缺失(missing at rando 阅读全文
posted @ 2023-12-09 16:47 paramotor 阅读(413) 评论(0) 推荐(0)
摘要: 信息熵 条件熵 信息增益 一、信息熵 $\begin{equation} H(Y) = \sum_{i=1}^n y_i \log y_i \end{equation}$ 单纯的Y的信息混乱程度 二、条件熵 $\begin{equation}\begin{aligned}H(Y|X) & = \sum_{i=1}^n P(X 阅读全文
posted @ 2023-12-07 13:15 paramotor 阅读(78) 评论(0) 推荐(0)