动手学习数据分析第2章

本文是Datawhale的组队学习动手学习数据分析的学习笔记，课件内容来源于Datawhale的团队；代码部分参考了b站up主橘子冰的一隅角落的系列视频

第一节数据清洗及特征处理

刚拿到的数据通常是不干净的，即数据中存在缺失值、重复值、异常点等，需要经过处理后再进行分析和建模。

#方法一
df.info()
#方法二
df.isnull().sum()
#方法三
df[['Age','Cabin','Embarked']].head(3)

使用dropna函数与fillna函数来实现对缺失值的处理。

dropn函数的用法：用于删除空值

dropna(axis,how,thresh,subset,inplace)

axis：默认为0，0代表行，代表列
how：默认为any，删除空值所在的行或者列（取决于axis的取值）；参数为all时，只删除全为空值的行或列，若不全为空值则不起作用
thresh:当参数为x时，表示保留空值的数量小于x的每一行或者是每一列（取决于axis的取值）
subset：指定删除特定行或列的空值所在的列或行，如果axis=0，表示如果指定行x中有空值，则删除所在的列；如果axis=1，表示如果指定列x有空值，则删除空值所在的行
inplace：默认为False,即原数据不受影响；参数为True时，表示改变原数据

fillna函数的用法：用于填充空值

fillna(axis,mthod,limit,inplace)

使用duplicated检测数据是否重复。

duplicated函数的用法：

DataFrame.duplicated(subsete, keep)

使用drop_duplicates处理重复值。

drop_duplicates函数的用法：

DataFrame.drop_duplicates(subsete, keep)

所有的参数用法与duplicated函数相同

DataFrame.to_csv(文件名)

可以将特征值分为两类，即数值型特征和文本型特征。

数值型特征一般可以直接用于模型的训练，但有时候为了模型的稳定性及鲁棒性会对连续变量进行离散化。

文本型特征往往需要转换成数值型特征才能用于建模分析。

posted on 2024-03-15 00:19 人间烟火天上星阅读(49) 评论(0) 收藏举报

刷新页面返回顶部