随笔分类 -  Spark

摘要:总的来说,需要考虑以下两点: 1. 有效地运用集群资源去减少每个批次处理的时间 2. 正确的设置batch size,以使得处理速度能跟上接收速度 一. 为了减少处理时间,主要有以下几个优化点: 1. 接收数据的并行度。 每个InputDStream只创建一个Receiver用于接收数据,如果接收数 阅读全文
posted @ 2017-12-14 17:10 一剑侵心 阅读(1042) 评论(0) 推荐(0)
摘要:基于数据集的处理:从物理存储上加载数据,然后操作数据,然后写入物理存储设备。比如Hadoop的MapReduce。 缺点:1.不适合大量的迭代 2. 交互式查询 3. 不能复用曾经的结果或中间计算结果 基于工作集的处理:如Spark的RDD。RDD具有如下的弹性: 1. 自动的进行内存和磁盘数据存储 阅读全文
posted @ 2017-12-13 21:28 一剑侵心 阅读(1541) 评论(0) 推荐(0)
摘要:为了实现容错,需要做checkpoint。以Streaming为例,checkpoint中有两种数据: 1. Metadata checkpointing:用于恢复driver端出错的情况。其中包含: (1) Configuration 用于创建Streaming应用所需要的配置信息 (2)DStr 阅读全文
posted @ 2017-12-12 15:41 一剑侵心 阅读(388) 评论(0) 推荐(0)
摘要:Spark HA的配置网上很多,最近我在看王林的Spark的视频,要付费的。那个人牛B吹得很大,本事应该是有的,但是有本事,不一定就是好老师。一开始吹中国第一,吹着吹着就变成世界第一。就算你真的是世界第一,视频(2.Spark内核解密(11-43讲全)中的第12课)里关于spark.deploy.z 阅读全文
posted @ 2017-11-11 15:37 一剑侵心 阅读(803) 评论(0) 推荐(0)
摘要:一. local 模式 -- 所有程序都运行在一个JVM中,主要用于开发时测试 无需开启任何服务,可直接运行 ./bin/run-example 或 ./bin/spark-submit 如: ./bin/run-example SparkPi 10 ./bin/spark-submit --cla 阅读全文
posted @ 2017-11-07 19:45 一剑侵心 阅读(5380) 评论(0) 推荐(0)
摘要:最近学习Spark,看了一个视频,里面有提到启动spark后,一般都会启动Spark History Server。视频里把 spark.history.fs.logDirectory 设置成了Hadoop上一个目录。配置的是hdfs://ubuntu1:9000/spark 啥的。我原来搭建的Ha 阅读全文
posted @ 2017-11-05 21:10 一剑侵心 阅读(4633) 评论(0) 推荐(0)