Pandas 笔记(四)

本文主要介绍Pandas数据类型和空值处理

  • 数据类型dtype
    pandas数据导入后会自动转变为dtype类型,查看类型:
reviews.price.dtype

类型转换:

reviews.points.astype('float64')

关于dtypes的详细信息参考: https://pandas.pydata.org/pandas-docs/stable/user_guide/basics.html#dtypes

  • Nah类型
    如果导入的数据项为空,则数据在dataframe中自动转换成NaN类型,而默认NaN的数据类型为float64。
    如果数据为空,则不能被如count, groupby方法所统计。
    可以用missingno库查看数据空值分布
import pandas as pd
import missingno as msno
from matplotlib import pyplot as plt

matplotlib.rcParams['font.family'] = 'SimHei'
original_data = pd.read_excel('datasets/XXX.xlsx', 'Sheet1')
msno.matrix(original_data)
plt.show()

  • isnull和notnull
    这两个方法可以用来过滤选择是否为空的数据项
reviews_null_country = reviews[pd.isnull(reviews.country)]
reviews_notnull_country = reviews[pd.isnull(reviews.country)]
  • fillna
    可以用来填充na内容
reviews.country.fillna('Unknown')
posted @ 2022-02-05 15:59  Asp1rant  阅读(41)  评论(0编辑  收藏  举报