摘要: 程序运行的过程中,报Failed to locate the winutils binary in the hadoop binary path Java.io.IOException: Could not locate executable\bin\winutils.exe in the Hado 阅读全文
posted @ 2017-04-06 19:53 大葱拌豆腐 阅读(521) 评论(0) 推荐(0)
摘要: 用Maven创建了一个spark sql项目,在引入spark sql jar包时引入的是: 阅读全文
posted @ 2017-04-06 19:27 大葱拌豆腐 阅读(21499) 评论(0) 推荐(0)
摘要: 在使用spark sql时一直运行报这个错误,最后仔细排查竟然是引入了两个scala library 。去除其中一个scala的编译器即可 Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class a 阅读全文
posted @ 2017-04-06 19:07 大葱拌豆腐 阅读(7316) 评论(1) 推荐(0)
摘要: package com.hand.study; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.jav... 阅读全文
posted @ 2017-04-06 16:33 大葱拌豆腐 阅读(17150) 评论(1) 推荐(2)
摘要: 总结: 1、RDD是一个Java对象的集合。RDD的优点是更面向对象,代码更容易理解。但在需要在集群中传输数据时需要为每个对象保留数据及结构信息,这会导致数据的冗余,同时这会导致大量的GC。 2、DataFrame是在1.3引入的,它包含数据与schema2部分信息,其中数据就是真正的数据,而不是一 阅读全文
posted @ 2017-04-06 15:33 大葱拌豆腐 阅读(588) 评论(0) 推荐(0)
摘要: 以下的这些分析都是基于spark2.1进行的 (一)什么是RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collectio 阅读全文
posted @ 2017-04-06 14:24 大葱拌豆腐 阅读(561) 评论(0) 推荐(0)
摘要: RDD是一个抽象类定义了所有RDD共有的一些属性和方法,下面介绍了主要的属性和方法。 RDD有5个主要的属性 (一)子类 (二)属性 1、SpackContext 在主构建函数中定义,表示RDD所在运行环境,可用于获取配置,清理环境等。 2、Seq[Dependency[_]] 定义了这个RDD对父 阅读全文
posted @ 2017-04-06 14:11 大葱拌豆腐 阅读(616) 评论(0) 推荐(0)
摘要: RDD根据对父RDD的依赖关系,可分为窄依赖与宽依赖2种。 主要的区分之处在于父RDD的分区被多少个子RDD分区所依赖,如果一个就为窄依赖,多个则为宽依赖。更好的定义应该是: 窄依赖的定义是子RDD的每一个分区都依赖于父RDD的一个或者少量几个分区(不依赖于全部分区) 与依赖相关的以下5个类: 它们 阅读全文
posted @ 2017-04-06 13:37 大葱拌豆腐 阅读(3025) 评论(0) 推荐(0)