09 2019 档案
摘要:数据清洗一是为了解决数据质量问题,二是让数据更适合做挖掘 数值类数据 缺失值 在处理缺失值之前,首先要理解为什么数据会有缺失。 丢弃 直接丢弃含有缺失值的行或者列 适用情况 1. 错误导致的数据缺失(GSP中跑步速度的缺失) 2. 要建模预测的数据列有数据缺失 3. 无用数据(调查车辆的价格,要排除
阅读全文
摘要:CRISP DM (Cross Industry Process for Data Mining)模型为一个KDD工程提供了一个完整的过程描述。该模型将一个KDD工程分为6个不同的,但顺序并非完全不变的阶段。 商业理解(Business Understanding) 商业理解是明确要达到的业务目标,
阅读全文
摘要:Pandas是一个基于NumPy的库,为python提供了易用的数据结构和数据分析工具。 导入 Pandas数据结构 Series 一维的有标签的数组,可以容纳任何类型的数据。 DataFrame 二维的有标签的数据结构,每一列都可能有不同的类型 筛选数据 布尔变量索引 高级索引 丢弃数据 排序 获
阅读全文
摘要:NumPy 是一个 python 科学计算的核心库,它提供了高性能的多维数组类型和处理这些高维数组的工具。 导入 创建数组 初始化元素 了解数组特征 数组的数学操作 算术操作 数组比较 复制数组 数组排序 元素筛选 取子集 切片 布尔索引 选出 a 中小于 2 的元素 a[a
阅读全文


浙公网安备 33010602011771号