摘要:
1 分组API DataFrame.groupby(key, as_index=False) key:分组的列数据,可以多个 案例:不同颜色的不同笔的价格数据 col =pd.DataFrame({'color': ['white','red','green','red','green'], 'ob 阅读全文
posted @ 2021-09-11 11:00
Trouvaille_fighting
阅读(91)
评论(0)
推荐(0)
摘要:
1 概念 交叉表:交叉表用于计算一列数据对于另外一列数据的分组个数(用于统计分组频率的特殊透视表) pd.crosstab(value1, value2) 透视表:透视表是将原有的DataFrame的列分别作为行索引和列索引,然后对指定的列应用聚集函数 data.pivot_table() Data 阅读全文
posted @ 2021-09-11 10:36
Trouvaille_fighting
阅读(211)
评论(0)
推荐(0)
摘要:
1 pd.concat实现数据合并 pd.concat([data1, data2], axis=1) 按照行或列进行合并,axis=0为列索引,axis=1为行索引 # 按照行索引进行 pd.concat([data, dummies], axis=1) 2 pd.merge合并 pd.merge 阅读全文
posted @ 2021-09-11 10:20
Trouvaille_fighting
阅读(47)
评论(0)
推荐(0)
摘要:
1 什么是数据离散化 连续属性的离散化就是在连续属性的值域上,将值域划分为若干个离散的区间,最后用不同的符号或整数 值代表落在每个子区间中的属性值。 qcut、cut实现数据分组【知道】 qcut:大致分为相同的几组 cut:自定义分组区间 get_dummies:实现哑变量矩阵 2 股票的涨跌幅离 阅读全文
posted @ 2021-09-11 10:04
Trouvaille_fighting
阅读(150)
评论(0)
推荐(0)
摘要:
1 处理缺失值NAN的方法 获取缺失值的标记方式(NaN或者其他标记方式) 如果缺失值的标记方式是NaN,判断数据中是否包含NaN: pd.isnull(df) pd.notnull(df) np.any(pd.isnull(movie)) # 里面如果有一个缺失值,就返回True np.all(p 阅读全文
posted @ 2021-09-11 09:44
Trouvaille_fighting
阅读(192)
评论(0)
推荐(0)

浙公网安备 33010602011771号