05 2022 档案
摘要:文章目录 数据集描述 一、数据清洗 1.读取并查看数据基本信息和数据的完整性 2.查看数据集中行的重复情况并删除 3.处理缺失值 4.合并month和day列组成时间类型的date列 5.划分子数据集 二、数据分析 1.访问量与访客量的情况 2.不同用户行为的访问量情况 3.付费用户消费次数、付费率
阅读全文
摘要:在将数据从hive存入mysql或者从hdfs存入mysql时出现了如下的错误: ERROR manager.CatalogQueryManager: Failed to list databasescom.mysql.jdbc.exceptions.jdbc4.CommunicationsExce
阅读全文
摘要:文章目录 1.缺失值 2.异常值 3.数据集成 4.实体识别 5.冗余属性识别 6.数据变换 数据清洗主要是删除原始数据集中的无关数据、重复数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值、异常值等。 1.缺失值 处理缺失值的方法可分为3类:删除记录、数据插补和不处理。*缺失值的处理方法均
阅读全文
摘要:文章目录 1.相关性分析 直接绘制散点图 计算相关系数 2.基本统计特征函数 1.相关性分析 分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。 直接绘制散点图 判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图绘制散点图矩阵需要同时考察多个变量间的相关关
阅读全文
摘要:文章目录 前言 1.缺失值分析 2.异常值分析 3.一致性分析 前言 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础。数据质量分析的主要任务是检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应分析的数据。在常见的
阅读全文

浙公网安备 33010602011771号