Pandas 笔记(四)
本文主要介绍Pandas数据类型和空值处理
- 数据类型dtype
pandas数据导入后会自动转变为dtype类型,查看类型:
reviews.price.dtype
类型转换:
reviews.points.astype('float64')
关于dtypes的详细信息参考: https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#dtypes
- Nah类型
如果导入的数据项为空,则数据在dataframe中自动转换成NaN类型,而默认NaN的数据类型为float64。
如果数据为空,则不能被如count, groupby方法所统计。
可以用missingno库查看数据空值分布
import pandas as pd
import missingno as msno
from matplotlib import pyplot as plt
matplotlib.rcParams['font.family'] = 'SimHei'
original_data = pd.read_excel('datasets/XXX.xlsx', 'Sheet1')
msno.matrix(original_data)
plt.show()
- isnull和notnull
这两个方法可以用来过滤选择是否为空的数据项
reviews_null_country = reviews[pd.isnull(reviews.country)]
reviews_notnull_country = reviews[pd.isnull(reviews.country)]
- fillna
可以用来填充na内容
reviews.country.fillna('Unknown')