预处理复习笔记2
1.怎么样为属性填上缺失值?
(1)忽略元组 (2)人工填写缺失值 (3)使用一个全局常量填充缺失值 (4)使用属性的中心度量(如均值或中位数)填充缺失值 (5)使用与给定元组属同一类的所有样本的属性值或中位数(6)使用最可能的值填充缺失值
2.噪声数据
噪声是被测量变量的随机误差或方差
3.数据变换策略包括6种
(1)光滑 (2)属性构造 (3)聚集 (4)规范化 (5)离散化 (6)有标称数据产生分层概念
4.数据规约策略包括:
维规约、数量规约、数据压缩
5。属性子集选择:
属性子集选择通过删除不相关或冗余的属性(或维)减少数据量
6.数据行:
数据以数据行的形式沿着步骤移动,一个数据行是零到多个字段的集合
7.数据清理的步骤
(1)计算器 (2)字符串替换 (3)字符串操作 (4)字符串剪切 (5)拆分字段 (6)值映射(7)字段现在(8)去除重复记录
8.字段清理:
拆分字段成多行、拆分字段、合并字段、字段选择
9.与转换的步骤相比作业项有3点不同:
(1)有影子复制 (2)作业项之间传递一个结果对象 (3)可以并行执行
10.回溯:
回溯算法就是假设执行到一条路径的某个节点,要依次执行这个节点的所有子路径,直到没有可执行的子路径时返回上一个节点,再反复这个过程
11.数据仓库:
是一个面向主题的、集成的、相对稳定反映·历史变化的数据集合,用于支持鼓励决策和信息的全局共享,它主要由维度表和事实表组成
Pandas非常适用于以下几种类型的数据。
(1)表格型的数据,(2)有序或无序的时间序列数据。(3 )带有行和列标签的矩阵数据。(4)各种统计、观测数据集。
维度表:主要存放基础属性;事实表:主要存放各个业务数据


浙公网安备 33010602011771号