2016年3月29日

parquet 合并元数据

摘要: 合并元数据:两个数据集,有着一部分相同的列,将他们合并成一个数据集时merge的过程。 合并的规则:相同的列,在新的数据集中,是通用的列, 各自不同的列,也作为新的数据集的列。 Spark将数据写入到HDFS中的parquet为例: 准备连个json文件(StudentInfo1.json,Stud 阅读全文

posted @ 2016-03-29 10:47 Creater 阅读(3423) 评论(0) 推荐(0)

导航