摘要:
文章目录 1.缺失值 2.异常值 3.数据集成 4.实体识别 5.冗余属性识别 6.数据变换 数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。 1.缺失值 处理缺失值的方法可分为3类:删除记录、数据插补和不处理。*缺失值的处理方法均 阅读全文
posted @ 2022-05-20 23:24
mariow
阅读(490)
评论(0)
推荐(0)
摘要:
文章目录 1.相关性分析 直接绘制散点图 计算相关系数 2.基本统计特征函数 1.相关性分析 分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。 直接绘制散点图 判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图绘制散点图矩阵需要同时考察多个变量间的相关关 阅读全文
posted @ 2022-05-20 23:14
mariow
阅读(657)
评论(0)
推荐(0)
摘要:
文章目录 前言 1.缺失值分析 2.异常值分析 3.一致性分析 前言 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的 阅读全文
posted @ 2022-05-20 23:00
mariow
阅读(320)
评论(0)
推荐(0)

浙公网安备 33010602011771号