预处理复习笔记2

1.怎么样为属性填上缺失值?

(1)忽略元组 (2)人工填写缺失值 (3)使用一个全局常量填充缺失值 (4)使用属性的中心度量(如均值或中位数)填充缺失值 (5)使用与给定元组属同一类的所有样本的属性值或中位数(6)使用最可能的值填充缺失值

2.噪声数据

噪声是被测量变量的随机误差或方差

3.数据变换策略包括6种

(1)光滑 (2)属性构造 (3)聚集 (4)规范化 (5)离散化 (6)有标称数据产生分层概念

4.数据规约策略包括:

维规约、数量规约、数据压缩

5。属性子集选择:

属性子集选择通过删除不相关或冗余的属性(或维)减少数据量

6.数据行:

数据以数据行的形式沿着步骤移动,一个数据行是零到多个字段的集合

7.数据清理的步骤

(1)计算器 (2)字符串替换 (3)字符串操作 (4)字符串剪切 (5)拆分字段 (6)值映射(7)字段现在(8)去除重复记录

8.字段清理:

拆分字段成多行、拆分字段、合并字段、字段选择

9.与转换的步骤相比作业项有3点不同:

(1)有影子复制 (2)作业项之间传递一个结果对象 (3)可以并行执行

10.回溯:

回溯算法就是假设执行到一条路径的某个节点,要依次执行这个节点的所有子路径,直到没有可执行的子路径时返回上一个节点,再反复这个过程

11.数据仓库:

是一个面向主题的、集成的、相对稳定反映·历史变化的数据集合,用于支持鼓励决策和信息的全局共享,它主要由维度表和事实表组成

Pandas非常适用于以下几种类型的数据。

(1)表格型的数据,(2)有序或无序的时间序列数据。(3 )带有行和列标签的矩阵数据。(4)各种统计、观测数据集。

维度表:主要存放基础属性;事实表:主要存放各个业务数据

image-20220101141732225

posted @ 2022-04-08 16:33  星月故里yw  阅读(100)  评论(0)    收藏  举报