bigdata-spark - 随笔分类 - 新际航

spark执行在yarn上executor内存不足异常ERROR YarnScheduler: Lost executor 542 on host-bigdata3: Container marked as failed: container_e40_1550646084627_1007653_01_000546 on host: host-bigdata3. Exit status: 143.

摘要：当spark跑在yarn上时单个executor执行时，数据量过大时会导致executor的memory不足而使得rdd 最后lost，最终导致任务执行失败其中会抛出如图异常信息如图中异常所示对应解决方法可以加上对应的参数调优(这个配置可以在总的处理数据量在几百TB或者1~3PB级别的数据处阅读全文

posted @ 2019-02-28 14:23 新际航阅读(3836) 评论(0) 推荐(0)

大数据-spark-hbase-hive等学习视频资料

摘要：不错的大数据spark学习资料，连接过期在评论区评论，再给你分享链接：https://pan.baidu.com/s/1T3-Tzz6qXMuQ_lyGc_0xbQ 提取码：zofz 阅读全文

posted @ 2018-09-25 23:31 新际航阅读(377) 评论(2) 推荐(0)

spark RDD、DataFrame、DataSet之间的相互转化

摘要：这三个数据集看似经常用，但是真正归纳总结的时候，很容易说不出来三个之间的关系与区别参考我的另一篇blog http://www.cnblogs.com/xjh713/p/7309507.html 则三个用代码转换如下: 1.RDD -> Dataset val ds = rdd.toDS()2. 阅读全文

posted @ 2017-09-06 10:11 新际航阅读(880) 评论(0) 推荐(0)

sparkSQL中RDD——DataFrame——DataSet的区别

摘要：spark中RDD、DataFrame、DataSet都是spark的数据集合抽象，RDD针对的是一个个对象,但是DF与DS中针对的是一个个Row RDD 优点: 编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点: 序列化和反序列化的性能开销无论是阅读全文

posted @ 2017-08-08 23:02 新际航阅读(1787) 评论(0) 推荐(0)

spark 指定相关的参数配置 num-executor executor-memory executor-cores

摘要：num-executors参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时，YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上，启动相应数量的Executor进程。这个参数非常之重要，如果不设置的话，默认只会给你阅读全文

posted @ 2017-08-08 22:38 新际航阅读(21730) 评论(2) 推荐(2)

Spark Streaming的使用——转载

摘要：转载自 Spark Streaming 使用阅读全文

posted @ 2017-08-07 20:51 新际航阅读(164) 评论(0) 推荐(0)

Spark SQL、DataFrame和Dataset——转载

摘要：转载自: Spark SQL、DataFrame和Datase 阅读全文

posted @ 2017-08-07 20:48 新际航阅读(157) 评论(0) 推荐(0)

spark的数据结构 RDD——DataFrame——DataSet区别

摘要：转载自:http://blog.csdn.net/wo334499/article/details/51689549 RDD 优点: 缺点: DataFrame DataFrame引入了schema和off-heap schema : RDD每一行的数据, 结构都是一样的. 这个结构就存储在sche 阅读全文

posted @ 2017-08-07 20:47 新际航阅读(744) 评论(0) 推荐(0)

spark总结——转载

摘要：转载自: spark总结第一个Spark程序关于RDD 弹性分布式数据集(RDD)是分布式处理的一个数据集的抽象，RDD是只读的，在RDD之上的操作都是并行的。实际上，RDD只是一个逻辑实体，其中存储了分布式数据集的一些信息，并没有包含所谓的“物理数据”，“物理数据”只有在RDD被计算并持久化之阅读全文

posted @ 2017-08-07 20:42 新际航阅读(1014) 评论(0) 推荐(0)

spark的运行方式——转载

摘要：本文转载自: spark的运行方式本文主要讲述运行spark程序的几种方式，包括：本地测试、提交到集群运行、交互式运行等。在以下几种执行spark程序的方式中，都请注意master的设置，切记。运行自带样例可以用 run-example 执行spark自带样例程序，如下：或者同样的：交阅读全文

posted @ 2017-08-07 20:40 新际航阅读(438) 评论(0) 推荐(0)

spark-local-运行异常-Could not locate executable null\bin\winutils.exe in the Hadoop binaries

摘要：windows下-local模式-运行spark： 1.下载winutils的windows版本 GitHub上，有人提供了winutils的windows的版本，项目地址是：https://github.com/srccodes/hadoop-common-2.2.0-bin,直接下载此项目的zi 阅读全文

posted @ 2017-03-12 15:27 新际航阅读(411) 评论(0) 推荐(0)

新际航

随笔分类 - bigdata-spark

公告