摘要:
sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame。同时,sparksql还可以作为分布式的sql查询引擎。 最最重要的功能就是从hive中查询数据。 Dataframe可以理解为:以列的形式组织的,分布式的数据集合。 Dataf 阅读全文
posted @ 2019-12-17 14:31
二黑诶
阅读(445)
评论(0)
推荐(0)
摘要:
Worker类源码位置: org.apache.spark.deploy.worker /** *启动driver的源码分析 */ case LaunchDriver(driverId, driverDesc) => logInfo(s"Asked to launch driver $driverI 阅读全文
posted @ 2019-12-17 14:29
二黑诶
阅读(322)
评论(0)
推荐(0)
摘要:
sqoop import -D sqoop.hbase.add.row.key=true //是否将rowkey相关字段列入列族中,默认为false ;该参数必须在import之后 --connect jdbc:mysql://120.27.208.185/bigdatatest //连接mysql 阅读全文
posted @ 2019-12-17 14:26
二黑诶
阅读(340)
评论(0)
推荐(0)