pandas
# 导入基础数据分析模块包
import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt
# 画图中文显示
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
# 忽略警告
import warnings
warnings.filterwarnings('ignore')
# 显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
# 字符串列转日期列
df["datetime_col"] = pd.to_datetime(df["datetime_col"], format='%Y/%m/%d')
# 查看样本的数和特征列数
print(df.shape)
# 查看数据基本行列大小、类型、内存信息
df.info()
# 生成数据报表并保存
import pandas_profiling
profile = pandas_profiling.ProfileReport(df)
profile
# 保存数据报表
profile.to_file(outputfile = "output_file.html")
# 统计数值型 describe()
# count mean std min 25% 50% 75% max
df.describe().T
# 统计字符串型 describe()
# count unique top freq
df[df.dtypes[df.dtypes == object].index.tolist()].describe().T
# 按某列排序
df_sort = df.sort_values(by=["col1", "col2"] , ascending=True)
# 缺失率计算
# 缺失值填充
# 按时间过滤
df = df[df["日期"] >=datetime.datetime.strptime("2017-01-01", '%Y-%m-%d').date()]

浙公网安备 33010602011771号