摘要: 简单介绍: nfs是网络文件系统,允许一个节点通过网络访问远程计算机的文件系统,远程文件系统可以被直接挂载到本地,文件操作和本地没有区别,如果是局域网的nfs那么io的性能也可以保证 nfs是Network File System(网络文件系统)。主要功能是通过网络让不同的服务器之间可以共享文件或者 阅读全文
posted @ 2018-06-27 17:18 大数据从业者FelixZh 阅读(828) 评论(0) 推荐(0)
摘要: Iterator 迭代器越界 例子如下: 上述错误均是因为两次.next造成的。可修改为 阅读全文
posted @ 2018-06-27 15:20 大数据从业者FelixZh 阅读(25979) 评论(0) 推荐(2)
摘要: 1、spark推测执行开启 设置 spark.speculation=true即可 2、spark开启推测执行的好处 推测执行是指对于一个Stage里面运行慢的Task,会在其他节点的Executor上再次启动这个task,如果其中一个Task实例运行成功则将这个最先完成的Task的计算结果作为最终 阅读全文
posted @ 2018-06-27 14:40 大数据从业者FelixZh 阅读(1140) 评论(0) 推荐(0)
摘要: 下面这些关于Spark的性能调优项,有的是来自官方的,有的是来自别的的工程师,有的则是我自己总结的。 基本概念和原则 <1> 每一台host上面可以并行N个worker,每一个worker下面可以并行M个executor,task们会被分配到executor上面 去执行。Stage指的是一组并行运行 阅读全文
posted @ 2018-06-27 14:39 大数据从业者FelixZh 阅读(1035) 评论(0) 推荐(0)
大数据从业者