jsqup

2022年8月30日

摘要： 1. 注意 1. 通过外部存储文件创建Dataset，dataset只支持纯文本文件。 2. 虽然说Dataset不支持其他格式的结构化文件，但是可以把结构化文件创建成DataFrame，然后把DataFrame转换Dataset。 3. textFile算子创建出来的Dataset是一个字符串类型阅读全文

posted @ 2022-08-30 14:55 jsqup 阅读(51) 评论(0) 推荐(0)

通过createDataset创建Dataset数据集(Array,RDD,List)

摘要：说明定义：底层用到了函数的柯里化，需要传递两个值。第二个值是一个隐式参数，需要定义一个隐式变量给隐式参数传递值。隐式变量不需要我们定义在SparkSession中全部给我们定义好了。隐式变量是一个编码器Encoder变量我们只需要导入即可 import session.implicit 阅读全文

posted @ 2022-08-30 14:32 jsqup 阅读(566) 评论(0) 推荐(0)

通过toDS()方法创建Dataset

摘要： object CreateDatasetByToDs { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("demo01").setMaster("local[*]") val session 阅读全文

posted @ 2022-08-30 13:45 jsqup 阅读(50) 评论(0) 推荐(0)

DataFrame中的行动算子操作2

摘要： ## 修改hdfs-site.xml <property> <name>hive.metastore.warehouse.dir</name> <value>hdfs://node1:9000/user/hive/warehouse</value> <description>location of 阅读全文

posted @ 2022-08-30 13:25 jsqup 阅读(45) 评论(0) 推荐(0)

DataFrame中的行动算子操作1

摘要： val conf = new SparkConf().setAppName("action").setMaster("local[*]") val session = SparkSession.builder().config(conf).getOrCreate() val seq: Seq[(St 阅读全文

posted @ 2022-08-30 12:20 jsqup 阅读(66) 评论(0) 推荐(0)

spark中各个技术点中的依赖(pom.xml)

摘要： mapreduce依赖 <properties> <hadoop.version>2.8.5</hadoop.version> </properties> <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifa 阅读全文

posted @ 2022-08-30 08:23 jsqup 阅读(563) 评论(0) 推荐(0)

DataFrame与rdd之间的转换(val rdd1 = dataFrame.rdd)

摘要：核心语句val rdd1 = dataFrame.rdd package SparkSQL.DataFreamCreate.dataframetordd import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import 阅读全文

posted @ 2022-08-30 08:17 jsqup 阅读(183) 评论(0) 推荐(0)

DataFrame中的转换算子2

摘要： val sparkConf = new SparkConf().setMaster("local[2]").setAppName("tran") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() val 阅读全文

posted @ 2022-08-30 00:10 jsqup 阅读(41) 评论(0) 推荐(0)

DataFrame中的转换算子操作1

摘要： val sparkConf = new SparkConf().setMaster("local[2]").setAppName("tran") val sparkSession = SparkSession.builder().config(sparkConf).getOrCreate() val 阅读全文

posted @ 2022-08-30 00:08 jsqup 阅读(46) 评论(0) 推荐(0)

2022年8月29日

DataFrame操作数据的两种方式(SQL和DSL)

摘要： SQL方式需要将DataFrame注册成为一张临时表，并给临时表起名字，通过SQL语句查询分析DataFrame中数据局部临时表、全局临时表 [注意]： --1 如果我们注册的是全局表，查询全局表的时候，必须在表名前加上一个数据库的名字global_temp val frame = sessio 阅读全文

posted @ 2022-08-29 20:50 jsqup 阅读(447) 评论(0) 推荐(0)

公告