摘要:
SparkStreaming拉取Kafka中数据,处理后入库。整个流程速度很慢,除去代码中可优化的部分,也在spark集群中找原因。 发现: 集群在处理数据时存在移动数据与移动计算的区别,也有些其他叫法,如:数据本地化、计算本地化、任务本地化等。 自己简单理解: 假设集群有6个节点,来了一批数据共1 阅读全文
posted @ 2018-01-18 18:15
右介
阅读(3000)
评论(0)
推荐(0)
摘要:
执行stop-all.sh时,出现报错:no org.apache.spark.deploy.master.Master to stop,no org.apache.spark.deploy.worker.Worker to stop 原因: Spark的停止,是通过一些.pid文件来操作的。 查看 阅读全文
posted @ 2018-01-18 12:24
右介
阅读(2646)
评论(0)
推荐(0)

浙公网安备 33010602011771号