2017 年 4月 6 日随笔档案 - 大葱拌豆腐

2017年4月6日

Windows7系统运行hadoop报Failed to locate the winutils binary in the hadoop binary path错误

摘要：程序运行的过程中，报Failed to locate the winutils binary in the hadoop binary path Java.io.IOException: Could not locate executable\bin\winutils.exe in the Hado 阅读全文

posted @ 2017-04-06 19:53 大葱拌豆腐阅读(525) 评论(0) 推荐(0)

java.lang.NoSuchMethodError: scala.Predef$.refArrayOps([Ljava/lang/Object;)Lscala/collection/mutable/ArrayOps;

摘要：用Maven创建了一个spark sql项目，在引入spark sql jar包时引入的是：阅读全文

posted @ 2017-04-06 19:27 大葱拌豆腐阅读(21504) 评论(0) 推荐(0)

Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class

摘要：在使用spark sql时一直运行报这个错误，最后仔细排查竟然是引入了两个scala library 。去除其中一个scala的编译器即可 Exception in thread "main" java.lang.NoClassDefFoundError: scala/Product$class a 阅读全文

posted @ 2017-04-06 19:07 大葱拌豆腐阅读(7327) 评论(1) 推荐(0)

Spark的Java API例子详解

摘要： package com.hand.study; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.jav... 阅读全文

posted @ 2017-04-06 16:33 大葱拌豆腐阅读(17164) 评论(1) 推荐(2)

RDD, DataFrame or Dataset

摘要：总结： 1、RDD是一个Java对象的集合。RDD的优点是更面向对象，代码更容易理解。但在需要在集群中传输数据时需要为每个对象保留数据及结构信息，这会导致数据的冗余，同时这会导致大量的GC。 2、DataFrame是在1.3引入的，它包含数据与schema2部分信息，其中数据就是真正的数据，而不是一阅读全文

posted @ 2017-04-06 15:33 大葱拌豆腐阅读(590) 评论(0) 推荐(0)

RDD的基础知识

摘要：以下的这些分析都是基于spark2.1进行的（一）什么是RDD A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents an immutable, partitioned collectio 阅读全文

posted @ 2017-04-06 14:24 大葱拌豆腐阅读(567) 评论(0) 推荐(0)

RDD的源码

摘要： RDD是一个抽象类定义了所有RDD共有的一些属性和方法，下面介绍了主要的属性和方法。 RDD有5个主要的属性（一）子类（二）属性 1、SpackContext 在主构建函数中定义，表示RDD所在运行环境，可用于获取配置，清理环境等。 2、Seq[Dependency[_]] 定义了这个RDD对父阅读全文

posted @ 2017-04-06 14:11 大葱拌豆腐阅读(620) 评论(0) 推荐(0)

窄依赖与宽依赖&stage的划分依据

摘要： RDD根据对父RDD的依赖关系，可分为窄依赖与宽依赖2种。主要的区分之处在于父RDD的分区被多少个子RDD分区所依赖，如果一个就为窄依赖，多个则为宽依赖。更好的定义应该是：窄依赖的定义是子RDD的每一个分区都依赖于父RDD的一个或者少量几个分区（不依赖于全部分区）与依赖相关的以下5个类：它们阅读全文

posted @ 2017-04-06 13:37 大葱拌豆腐阅读(3033) 评论(0) 推荐(0)

公告