pandas

 

# 导入基础数据分析模块包

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

 

# 画图中文显示

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 忽略警告

import warnings
warnings.filterwarnings('ignore')

 

# 显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)

 

# 字符串列转日期列

df["datetime_col"] = pd.to_datetime(df["datetime_col"], format='%Y/%m/%d')

# 查看样本的数和特征列数
print(df.shape)
# 查看数据基本行列大小、类型、内存信息
df.info()

 

# 生成数据报表并保存
import pandas_profiling

profile = pandas_profiling.ProfileReport(df)
profile

# 保存数据报表

profile.to_file(outputfile =  "output_file.html")

 

# 统计数值型 describe()

# count     mean     std     min     25%     50%     75%     max
df.describe().T

# 统计字符串型 describe() 

# count     unique     top     freq
df[df.dtypes[df.dtypes == object].index.tolist()].describe().T

 

# 按某列排序

df_sort = df.sort_values(by=["col1", "col2"] , ascending=True)

 

# 缺失率计算

 

# 缺失值填充

 

# 按时间过滤

df = df[df["日期"] >=datetime.datetime.strptime("2017-01-01", '%Y-%m-%d').date()]

 

posted @ 2019-11-07 15:11  玩蛇大师  阅读(129)  评论(0)    收藏  举报