数据预览与预处理
一、加载数据
点击查看代码
import pandas as pd
df = pd.read_excel("TOP250.xlsx")
二、数据的查看
2.1查看数据有多少行,多少列:
df.shape
2.2 查看几行数据
点击查看代码
df.sample(5) # 随机查看数据
df.head() # 查看数据的前5行
df.tail() # 查看数据的后5行
2.3 查看数据基本信息
df.info()
2.4 查看数值型、列的统计信息、计数、均值之类
df.describe()
df.describe().round(2) # 保留两位小数
2.5 查看数据统计信息|离散
df.describe(include=['O'])
2.6 - 查看数据统计信息|整体
查看 全部 列的统计信息
df.describe(include='all')
三、缺失值处理
3.1计算缺失值|总计
df.isna().sum() # 统计每列有多少缺失值;
df.isna().sum().sum() # 统计总共有多少个缺失值(每列之和)
3.2 查看缺失值
点击查看代码
df[df.isnull().T.any() == True] # 查看所有数据的缺失值
df[df['评价人数'].isnull()] # 查看某一列数据的缺失值
3.3 将缺失值进行高亮标出
点击查看代码
df[df.isnull().T.any() == True].style.highlight_null(null_color='skyblue')
3.4 删除缺失值
点击查看代码
df.dropna() # 删除所有的缺失值
3.5 缺失值补全|整体填充
将缺失值用特定字符去替换
点击查看代码
df.fillna("*")
3.6 缺失值补全|向上填充
点击查看代码
df['评分']=df['评分'].fillna(axis=0,method='ffill')
df
3.7 缺失值补全|整体均值填充
点击查看代码
df['评价人数']=df['评价人数'].fillna(df['评价人数'].mean())
df
3.8 缺失值补全|上下均值填充
点击查看代码
df['评价人数'] = df['评价人数'].fillna(df['评价人数'].interpolate())
df
3.9 缺失值补全|匹配填充
点击查看代码
df['语言']=df.groupby('国家/地区').语言.bfill()
df
四、重复值处理
4.1 查找重复值
点击查看代码
df[df.duplicated()] # 查找所有的重复值
df[df.duplicated(['片名'])] # 查找某一列的重复值
4.2 删除重复值
点击查看代码
df.drop_duplicates() # 删除所有的重复值
df = df.drop_duplicates(keep = 'last') # 删除全部的重复值,但保留最后一次出现的值