数据预览与预处理

一、加载数据

点击查看代码

import pandas as pd
df = pd.read_excel("TOP250.xlsx")

二、数据的查看

2.1查看数据有多少行，多少列：

df.shape

2.2 查看几行数据

点击查看代码

df.sample(5) # 随机查看数据
df.head()  # 查看数据的前5行
df.tail() # 查看数据的后5行

2.3 查看数据基本信息

df.info()

2.4 查看数值型、列的统计信息、计数、均值之类

df.describe()
df.describe().round(2) # 保留两位小数

2.5 查看数据统计信息｜离散

df.describe(include=['O'])

2.6 - 查看数据统计信息｜整体

查看全部列的统计信息
df.describe(include='all')

三、缺失值处理

3.1计算缺失值｜总计

df.isna().sum() # 统计每列有多少缺失值；
df.isna().sum().sum() # 统计总共有多少个缺失值（每列之和）

3.2 查看缺失值

点击查看代码

df[df.isnull().T.any() == True] # 查看所有数据的缺失值
df[df['评价人数'].isnull()] # 查看某一列数据的缺失值

3.3 将缺失值进行高亮标出

点击查看代码

df[df.isnull().T.any() == True].style.highlight_null(null_color='skyblue')

3.4 删除缺失值

点击查看代码

df.dropna() # 删除所有的缺失值

3.5 缺失值补全｜整体填充

将缺失值用特定字符去替换

点击查看代码

df.fillna("*")

3.6 缺失值补全｜向上填充

点击查看代码

df['评分']=df['评分'].fillna(axis=0,method='ffill')
df

3.7 缺失值补全｜整体均值填充

点击查看代码

df['评价人数']=df['评价人数'].fillna(df['评价人数'].mean())
df

3.8 缺失值补全｜上下均值填充

点击查看代码

df['评价人数'] = df['评价人数'].fillna(df['评价人数'].interpolate())
df

3.9 缺失值补全｜匹配填充

点击查看代码

df['语言']=df.groupby('国家/地区').语言.bfill()
df

四、重复值处理

4.1 查找重复值

点击查看代码

df[df.duplicated()] # 查找所有的重复值
df[df.duplicated(['片名'])] # 查找某一列的重复值

4.2 删除重复值

点击查看代码

df.drop_duplicates() # 删除所有的重复值
df = df.drop_duplicates(keep = 'last') # 删除全部的重复值，但保留最后一次出现的值

posted @ 2021-09-29 22:19 Smile_Everyday_001 阅读(263) 评论(0) 收藏举报

刷新页面返回顶部

Smile_Everyday_001

数据预览与预处理

一、加载数据

二、数据的查看

2.1查看数据有多少行，多少列：

2.2 查看几行数据

2.3 查看数据基本信息

2.4 查看数值型、列的统计信息、计数、均值之类

2.5 查看数据统计信息｜离散

2.6 - 查看数据统计信息｜整体

三、缺失值处理

3.1计算缺失值｜总计

3.2 查看缺失值

3.3 将缺失值进行高亮标出

3.4 删除缺失值

3.5 缺失值补全｜整体填充

3.6 缺失值补全｜向上填充

3.7 缺失值补全｜整体均值填充

3.8 缺失值补全｜上下均值填充

3.9 缺失值补全｜匹配填充

四、重复值处理

4.1 查找重复值

4.2 删除重复值

公告