2017年7月9日
摘要: 1.DataFrame的创建方式 1.1 通过加载外部文件创建 1.2 通过RDD和元数据进行转换 1.2.1 通过使用动态构建的元数据的方式创建DataFrame 1.2.2 通过反射的方式,使用javabean的属性作为DataFrame的元数据进行创建DataFrame 1.2.3 使用hiv 阅读全文
posted @ 2017-07-09 16:11 YL10000 阅读(233) 评论(0) 推荐(0) 编辑
  2017年7月7日
摘要: 1.spark执行原理图 spark程序启动后创建sparkContext作为程序的入口,sparkContext可以与不同类的集群资源管理器(Cluster Manager)进行通信,从而获得程序运行所需要的资源, 获取到集群中其他工作节点(worker node)上对应的Executors,之后 阅读全文
posted @ 2017-07-07 16:33 YL10000 阅读(418) 评论(0) 推荐(0) 编辑
  2017年7月4日
摘要: 1.MapReduce和spark的对比 2.初始化spark master为Spark、Mesos、YARN URL或local。使用local值时,表示在本地模式下运行程序。 也可以在省略,在spark-submit时进行指定。 3.使用spark-shell,会自动创建sparkContext 阅读全文
posted @ 2017-07-04 14:37 YL10000 阅读(372) 评论(0) 推荐(0) 编辑
  2017年6月13日
摘要: 本文转载自http://www.cnblogs.com/itfly8/p/6062757.html 如有一个表为如下 说明:有四种互补关联的状态:a,b,c,d 通常情况我们会添加管理表,或者在status字段中使用,分割字符串表示不同的状态如果a,b,这样不利于扩展 现在采用二进制的存法 其中关联 阅读全文
posted @ 2017-06-13 11:27 YL10000 阅读(867) 评论(0) 推荐(0) 编辑
  2017年2月28日
摘要: 1、调节reduce端缓冲区大小避免OOM异常 1.1 为什么要调节reduce端缓冲区大小 对于map端不断产生的数据,reduce端会不断拉取一部分数据放入到缓冲区,进行聚合处理; 当map端数据特别大时,reduce端的task拉取数据是可能全部的缓冲区都满了,此时进行reduce聚合处理时创 阅读全文
posted @ 2017-02-28 17:52 YL10000 阅读(620) 评论(0) 推荐(0) 编辑
  2017年2月27日
摘要: 1、使用MapPartitions代替map 1.1 为什么要死使用MapPartitions代替map 普通的map,每条数据都会传入function中进行计算一次;而是用MapPartitions时,function会一次接受所有partition的数据出入到function中计算一次,性能较高 阅读全文
posted @ 2017-02-27 10:31 YL10000 阅读(3122) 评论(0) 推荐(0) 编辑
  2017年2月24日
摘要: 1、开启map端输出文件的合并机制 1.1 为什么要开启map端输出文件的合并机制 默认情况下,map端的每个task会为reduce端的每个task生成一个输出文件,reduce段的每个task拉取map端每个task生成的相应文件 开启后,map端只会在并行执行的task生成reduce端tas 阅读全文
posted @ 2017-02-24 14:56 YL10000 阅读(780) 评论(0) 推荐(1) 编辑
  2017年2月23日
摘要: 1、降低cache操作的内存占比 1.1 为什么要降低cache操作的内存占比 spark的堆内存分别两部分,一部分用来给Rdd的缓存进行使用,另一部分供spark算子函数运行使用,存放函数中的对象 默认情况下,供Rdd缓存使用的占0.6,但是,有些时候,不需要那么多的缓存,反而函数计算需要更多的内 阅读全文
posted @ 2017-02-23 17:02 YL10000 阅读(1913) 评论(0) 推荐(0) 编辑
摘要: 1、分配更多的资源 1.1 分配的资源有:executor、cup per executor、memory per executor、driver memory 1.2 如何分配:在spark-submit提交时设置相应的参数 1.3 调节到多大(原则:能使用的资源有多大,就尽量调节到最大的大小) 阅读全文
posted @ 2017-02-23 14:33 YL10000 阅读(494) 评论(0) 推荐(0) 编辑
  2017年1月18日
摘要: 1、安装apache 1.1 下载ApacheX64.rar,并解压 1.2 修改Apache24\conf\httpd.conf文件 配置根目录: 配置ip和端口 1.2 安装apache服务器 以管理员身份进入到apache安装目录的bin目录下,执行httpd.exe -k install 1 阅读全文
posted @ 2017-01-18 17:46 YL10000 阅读(206) 评论(0) 推荐(0) 编辑