摘要: 1.rdd to dataframe rdd.toDF(schema=None, sampleRatio=Non) session.createDataFrame(data, schema=None, samplingRatio=None, verifySchema=True) rdd转换为data 阅读全文
posted @ 2017-10-30 16:47 淡季的风 阅读(449) 评论(0) 推荐(0)
摘要: 1. map与 mapPartitions的异同 map与mapPartitions的作用相同,map是对每一个element应用func, mapPartitions是对每一个partition应用func. partition是指分区,对数据的切分,类似hadoop的split, 比如一份数据有 阅读全文
posted @ 2017-10-30 12:30 淡季的风 阅读(294) 评论(0) 推荐(0)