parquet 合并元数据
摘要:
合并元数据:两个数据集,有着一部分相同的列,将他们合并成一个数据集时merge的过程。 合并的规则:相同的列,在新的数据集中,是通用的列, 各自不同的列,也作为新的数据集的列。 Spark将数据写入到HDFS中的parquet为例: 准备连个json文件(StudentInfo1.json,Stud 阅读全文
posted @ 2016-03-29 10:47 Creater 阅读(3423) 评论(0) 推荐(0)
浙公网安备 33010602011771号