(4)pyspark---dataframe清理
摘要:
1、交叉表(crosstab): pandas中也有,常和pivot_table比较。 查看家庭ID与评分的交叉表: 2、处理缺失值:fillna withColumn:新增一列数据 cast : 用于将某种数据类型的表达式显式转换为另一种数据类型 将缺失值删除:dropna 3、处理重复值 查看有 阅读全文
posted @ 2018-10-11 13:46 吱吱了了 阅读(1885) 评论(0) 推荐(0)
浙公网安备 33010602011771号