Spark - 随笔分类(第2页) - 一剑侵心

Spark Streaming 官网上提到的几点调优

摘要：总的来说，需要考虑以下两点： 1. 有效地运用集群资源去减少每个批次处理的时间 2. 正确的设置batch size，以使得处理速度能跟上接收速度一. 为了减少处理时间，主要有以下几个优化点： 1. 接收数据的并行度。每个InputDStream只创建一个Receiver用于接收数据，如果接收数阅读全文

posted @ 2017-12-14 17:10 一剑侵心阅读(1042) 评论(0) 推荐(0)

Spark RDD(Resilient Distributed Dataset)

摘要：基于数据集的处理：从物理存储上加载数据，然后操作数据，然后写入物理存储设备。比如Hadoop的MapReduce。缺点：1.不适合大量的迭代 2. 交互式查询 3. 不能复用曾经的结果或中间计算结果基于工作集的处理：如Spark的RDD。RDD具有如下的弹性： 1. 自动的进行内存和磁盘数据存储阅读全文

posted @ 2017-12-13 21:28 一剑侵心阅读(1541) 评论(0) 推荐(0)

Spark 中的 checkpoint

摘要：为了实现容错，需要做checkpoint。以Streaming为例，checkpoint中有两种数据： 1. Metadata checkpointing：用于恢复driver端出错的情况。其中包含：（1） Configuration 用于创建Streaming应用所需要的配置信息（2）DStr 阅读全文

posted @ 2017-12-12 15:41 一剑侵心阅读(388) 评论(0) 推荐(0)

Spark HA 配置中spark.deploy.zookeeper.url 的意思

摘要：Spark HA的配置网上很多，最近我在看王林的Spark的视频，要付费的。那个人牛B吹得很大，本事应该是有的，但是有本事，不一定就是好老师。一开始吹中国第一，吹着吹着就变成世界第一。就算你真的是世界第一，视频（2.Spark内核解密(11-43讲全)中的第12课）里关于spark.deploy.z 阅读全文

posted @ 2017-11-11 15:37 一剑侵心阅读(803) 评论(0) 推荐(0)

运行Spark程序的几种模式

摘要：一. local 模式 -- 所有程序都运行在一个JVM中，主要用于开发时测试无需开启任何服务，可直接运行 ./bin/run-example 或 ./bin/spark-submit 如： ./bin/run-example SparkPi 10 ./bin/spark-submit --cla 阅读全文

posted @ 2017-11-07 19:45 一剑侵心阅读(5380) 评论(0) 推荐(0)

Spark history server 遇到的一些问题

摘要：最近学习Spark，看了一个视频，里面有提到启动spark后，一般都会启动Spark History Server。视频里把 spark.history.fs.logDirectory 设置成了Hadoop上一个目录。配置的是hdfs://ubuntu1:9000/spark 啥的。我原来搭建的Ha 阅读全文

posted @ 2017-11-05 21:10 一剑侵心阅读(4633) 评论(0) 推荐(0)

一剑侵心

随笔分类 - Spark

公告