摘要: 1) 前面连接的是spark自带的hive数仓,并且在spark目录下自动生成了metastror_data,spark-warehouse。这里我们把它删除,都删除不要了。4 2) 打开hive目录下的conf文件,把hive-site.xml原封不动的复制一份放在 spark/conf 目录下 阅读全文
posted @ 2019-10-10 20:27 markecc121 阅读(1166) 评论(0) 推荐(0) 编辑
摘要: 1 最直接的方式 scala> val jdbcDF = spark.read.format("jdbc") .option("url", "jdbc:mysql://hadoop1:3306/rdd") mysql 接口和库名 .option("dbtable", "rddtable") 两张表名 阅读全文
posted @ 2019-10-09 18:17 markecc121 阅读(3263) 评论(0) 推荐(0) 编辑
摘要: 1) spark可以读取很多种数据格式,spark.read.按tab键表示显示: scala>spark.read. csv format jdbc json load option options orc parquet schema table text textFile 2) spark.r 阅读全文
posted @ 2019-10-09 15:39 markecc121 阅读(11170) 评论(0) 推荐(0) 编辑
摘要: 1)创建一个样例类 scala> case class People(name:String,age:Long)defined class People 2)创建DataSet scala> val caseClassDS = Seq(People("Andy",32)).toDS()caseCla 阅读全文
posted @ 2019-10-08 22:55 markecc121 阅读(1304) 评论(0) 推荐(0) 编辑
摘要: 1)通过反射确定,需要样例类,创建一个样例类 scala> case class People(name:String,age:Int)defined class People 2)开始创建一个RDD scala> val rdd =sc.makeRDD(List(("zhangsn",20),(" 阅读全文
posted @ 2019-10-08 22:35 markecc121 阅读(390) 评论(0) 推荐(0) 编辑
摘要: 1,spark中用sql方式查询的方法步骤: 1)spark res3: org.apache.spark.sql.SparkSession = org.apache.spark.sql.SparkSessio 2)读取数据的步骤,用spark.read 再按Table键,spark会告诉你spar 阅读全文
posted @ 2019-10-08 21:36 markecc121 阅读(3092) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-02-02 00:13 markecc121 阅读(11) 评论(0) 推荐(0) 编辑
该文被密码保护。 阅读全文
posted @ 2019-01-23 16:33 markecc121 阅读(1) 评论(0) 推荐(0) 编辑