随笔分类 - bigdata-spark
摘要:当spark跑在yarn上时 单个executor执行时,数据量过大时会导致executor的memory不足而使得rdd 最后lost,最终导致任务执行失败 其中会抛出如图异常信息 如图中异常所示 对应解决方法可以加上对应的参数调优(这个配置可以在总的处理数据量在几百TB或者1~3PB级别的数据处
阅读全文
摘要:不错的大数据spark学习资料,连接过期在评论区评论,再给你分享 链接:https://pan.baidu.com/s/1T3-Tzz6qXMuQ_lyGc_0xbQ 提取码:zofz
阅读全文
摘要:这三个数据集看似经常用,但是真正归纳总结的时候,很容易说不出来 三个之间的关系与区别参考我的另一篇blog http://www.cnblogs.com/xjh713/p/7309507.html 则三个用代码转换如下: 1.RDD -> Dataset val ds = rdd.toDS()2.
阅读全文
摘要:spark中RDD、DataFrame、DataSet都是spark的数据集合抽象,RDD针对的是一个个对象,但是DF与DS中针对的是一个个Row RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销 无论是
阅读全文
摘要:num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你
阅读全文
摘要:转载自 Spark Streaming 使用
阅读全文
摘要:转载自: Spark SQL、DataFrame和Datase
阅读全文
摘要:转载自:http://blog.csdn.net/wo334499/article/details/51689549 RDD 优点: 缺点: DataFrame DataFrame引入了schema和off-heap schema : RDD每一行的数据, 结构都是一样的. 这个结构就存储在sche
阅读全文
摘要:转载自: spark总结 第一个Spark程序 关于RDD 弹性分布式数据集(RDD)是分布式处理的一个数据集的抽象,RDD是只读的,在RDD之上的操作都是并行的。实际上,RDD只是一个逻辑实体,其中存储了分布式数据集的一些信息,并没有包含所谓的“物理数据”,“物理数据”只有在RDD被计算并持久化之
阅读全文
摘要:本文转载自: spark的运行方式 本文主要讲述运行spark程序的几种方式,包括:本地测试、提交到集群运行、交互式运行 等。 在以下几种执行spark程序的方式中,都请注意master的设置,切记。 运行自带样例 可以用 run-example 执行spark自带样例程序,如下: 或者同样的: 交
阅读全文
摘要:windows下-local模式-运行spark: 1.下载winutils的windows版本 GitHub上,有人提供了winutils的windows的版本,项目地址是:https://github.com/srccodes/hadoop-common-2.2.0-bin,直接下载此项目的zi
阅读全文

浙公网安备 33010602011771号