随笔分类 - 源码解剖
摘要:依赖库 spark 操作redis的时候,依赖的库是spark-redis 首先我们导入依赖 <!-- https://mvnrepository.com/artifact/com.redislabs/spark-redis --> <dependency> <groupId>com.redisla
阅读全文
摘要:Spark RDD的简介 什么是RDD? RDD是整个Spark的基石,是一个弹性分布式的数据集,为用户屏蔽了底层复杂的计算和映射操作。 RDD的特点: RDD 是不可变的,如果对一个RDD进行转换操作会生成一个新的RDD。 RDD 是分区的,RDD 里面的具体数据是分布在多台机器上的 Excuto
阅读全文
摘要:spark sql 数据去重 在对spark sql 中的dataframe数据表去除重复数据的时候可以使用dropDuplicates()方法 dropDuplicates()有4个重载方法 第一个def dropDuplicates(): Dataset[T] = dropDuplicates(
阅读全文

浙公网安备 33010602011771号