pandas

# 导入基础数据分析模块包

import numpy as np
import pandas as pd
from pandas import Series, DataFrame
import matplotlib.pyplot as plt

# 画图中文显示

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 忽略警告

import warnings
warnings.filterwarnings('ignore')

# 显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)

# 字符串列转日期列

df["datetime_col"] = pd.to_datetime(df["datetime_col"], format='%Y/%m/%d')

# 查看样本的数和特征列数
print(df.shape)
# 查看数据基本行列大小、类型、内存信息
df.info()

# 生成数据报表并保存
import pandas_profiling

profile = pandas_profiling.ProfileReport(df)
profile

# 保存数据报表

profile.to_file(outputfile = "output_file.html")

# 统计数值型 describe()

# count mean std min 25% 50% 75% max
df.describe().T

# 统计字符串型 describe()

# count unique top freq
df[df.dtypes[df.dtypes == object].index.tolist()].describe().T

# 按某列排序

df_sort = df.sort_values(by=["col1", "col2"] , ascending=True)

# 缺失率计算

# 缺失值填充

# 按时间过滤

df = df[df["日期"] >=datetime.datetime.strptime("2017-01-01", '%Y-%m-%d').date()]

posted @ 2019-11-07 15:11 玩蛇大师阅读(129) 评论(0) 收藏举报

刷新页面返回顶部

玩蛇大师