2018 年 10月 11 日随笔档案 - 吱吱了了

2018年10月11日

（4）pyspark---dataframe清理

摘要： 1、交叉表（crosstab)： pandas中也有，常和pivot_table比较。查看家庭ID与评分的交叉表： 2、处理缺失值：fillna withColumn：新增一列数据 cast : 用于将某种数据类型的表达式显式转换为另一种数据类型将缺失值删除：dropna 3、处理重复值查看有阅读全文

posted @ 2018-10-11 13:46 吱吱了了阅读(1885) 评论(0) 推荐(0)

（3）pyspark----dataframe和sql

摘要： 1、读取： sparkDF = spark.read.csv(path) sparkDF = spark.read.text(path) 2、打印： sparkDF.show()【这是pandas中没有的】：打印内容 sparkDF.head()：打印前面的内容 sparkDF.describe() 阅读全文

posted @ 2018-10-11 12:48 吱吱了了阅读(1727) 评论(0) 推荐(0)

（4）pyspark---dataframe清理

（3）pyspark----dataframe和sql

导航

公告