ParquetDataSourcePartition

package com.bjsxt.scala.spark.sql.parquet

import org.apache.spark.sql.SQLContext
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SaveMode

object ParquetDataSourcePartition {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setAppName("GenericLoadSave")
      .setMaster("local")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
   /* val usersDF = sqlContext.read.format("parquet").load("hdfs://hadoop1:9000/input/users.parquet")

    //     val usersDF = sqlContext.read.parquet("users/gender=male/country=US/users.parquet")
    usersDF.printSchema()
    usersDF.show()
    
    usersDF.write.mode(SaveMode.Append).format("json").save("hdfs://hadoop1:9000/output/0731")*/
    val usersDF = sqlContext.read.format("parquet").load("hdfs://hadoop1:9000/users")
    usersDF.printSchema()
    usersDF.show()
    sc.stop()
  }
}

posted @ 2018-06-23 16:45 uuhh 阅读(112) 评论(0) 收藏举报

刷新页面返回顶部

uuhh

ParquetDataSourcePartition

公告