import pandas as pd
pd.options.display.max_rows = 10 # 设置显示行数
df1 = pd.read_csv(r'E:\anacondatest\PythonData\PM25\Beijing_2009_HourlyPM25_created20140709.csv', encoding='gbk')
# 数值变量的基本描述
df1.describe(include='all') # include希望分析哪些变量,如果指定多列,放入一个列表中
# 分类变量的频数统计
pd.value_counts(df1.类型, sort=False)
df1.总分.value_counts(bins=10) # 对总分进行分段统计
# 交叉表/数据透视表
df1.pivot_table(index=['所在省份', '主管部门'], columns='类型', values='总分', aggfunc=sum)
# 常用的假设检验方法
'''
单样本t检验
两独立样本t检验
配对t检验
单因素方差分析
卡方检验
相关分析
回归分析
非参数以检验方法
'''