源码解剖 - 随笔分类 - JunCode

spark 操作redis

摘要：依赖库 spark 操作redis的时候，依赖的库是spark-redis 首先我们导入依赖  <dependency> <groupId>com.redisla 阅读全文

posted @ 2020-09-14 17:23 JunCode 阅读(6305) 评论(4) 推荐(0)

Spark RDD

摘要：Spark RDD的简介什么是RDD？ RDD是整个Spark的基石，是一个弹性分布式的数据集，为用户屏蔽了底层复杂的计算和映射操作。 RDD的特点： RDD 是不可变的，如果对一个RDD进行转换操作会生成一个新的RDD。 RDD 是分区的，RDD 里面的具体数据是分布在多台机器上的 Excuto 阅读全文

posted @ 2020-08-28 11:43 JunCode 阅读(337) 评论(0) 推荐(2)

Spark SQL dropDuplicates

摘要：spark sql 数据去重在对spark sql 中的dataframe数据表去除重复数据的时候可以使用dropDuplicates()方法 dropDuplicates()有4个重载方法第一个def dropDuplicates(): Dataset[T] = dropDuplicates( 阅读全文

posted @ 2020-08-25 11:30 JunCode 阅读(6192) 评论(0) 推荐(2)

JunCode

随笔分类 - 源码解剖

公告