摘要: 1 分组API DataFrame.groupby(key, as_index=False) key:分组的列数据,可以多个 案例:不同颜色的不同笔的价格数据 col =pd.DataFrame({'color': ['white','red','green','red','green'], 'ob 阅读全文
posted @ 2021-09-11 11:00 Trouvaille_fighting 阅读(91) 评论(0) 推荐(0)
摘要: 1 概念 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表) pd.crosstab(value1, value2) 透视表:透视表是将原有的DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数 data.pivot_table() Data 阅读全文
posted @ 2021-09-11 10:36 Trouvaille_fighting 阅读(211) 评论(0) 推荐(0)
摘要: 1 pd.concat实现数据合并 pd.concat([data1, data2], axis=1) 按照行或列进行合并,axis=0为列索引,axis=1为行索引 # 按照行索引进行 pd.concat([data, dummies], axis=1) 2 pd.merge合并 pd.merge 阅读全文
posted @ 2021-09-11 10:20 Trouvaille_fighting 阅读(47) 评论(0) 推荐(0)
摘要: 1 什么是数据离散化 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。 qcut、cut实现数据分组【知道】 qcut:大致分为相同的几组 cut:自定义分组区间 get_dummies:实现哑变量矩阵 2 股票的涨跌幅离 阅读全文
posted @ 2021-09-11 10:04 Trouvaille_fighting 阅读(150) 评论(0) 推荐(0)
摘要: 1 处理缺失值NAN的方法 获取缺失值的标记方式(NaN或者其他标记方式) 如果缺失值的标记方式是NaN,判断数据中是否包含NaN: pd.isnull(df) pd.notnull(df) np.any(pd.isnull(movie)) # 里面如果有一个缺失值,就返回True np.all(p 阅读全文
posted @ 2021-09-11 09:44 Trouvaille_fighting 阅读(192) 评论(0) 推荐(0)