随笔分类 -  hadoop

摘要:一.集群环境配置 二.idea配置 在我们的idea中,添加两个Remote启动项 重要的时刻来了,我们先启动调试Master,并加上属于Master代码的断点: 可以看到,idea已经连接到了我们Cluster中的Master机器的10000端口,而这正是我们在集群中配置的端口。同理启动Slave 阅读全文
posted @ 2018-02-07 16:16 暗痛 阅读(3669) 评论(0) 推荐(0)
摘要:如何一步一步地在Intellij IDEA使用Maven搭建spark开发环境,并基于scala编写简单的spark中wordcount实例。 1.准备工作 首先需要在你电脑上安装jdk和scala以及开发工具Intellij IDEA,本文中使用的是win7系统,环境配置如下: jdk1.7.0_ 阅读全文
posted @ 2017-11-24 11:49 暗痛 阅读(11217) 评论(0) 推荐(1)
摘要:装了一个多星期的hive on spark 遇到了许多坑。还是写一篇随笔,免得以后自己忘记了。同事也给我一样苦逼的人参考。 先说明一下,这里说的Hive on Spark是Hive跑在Spark上,用的是Spark执行引擎,而不是MapReduce,和Hive on Tez的道理一样。 先看官网的资 阅读全文
posted @ 2016-06-02 11:16 暗痛 阅读(19618) 评论(9) 推荐(2)
摘要:执行流程数据的接收StreamingContext实例化的时候,需要传入一个SparkContext,然后指定要连接的spark matser url,即连接一个spark engine,用于获得executor。实例化之后,首先,要指定一个接收数据的方式,如val lines = ssc.sock... 阅读全文
posted @ 2015-09-09 15:12 暗痛 阅读(651) 评论(0) 推荐(0)
摘要:Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环 节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的... 阅读全文
posted @ 2015-09-09 15:12 暗痛 阅读(362) 评论(0) 推荐(0)
摘要:Spark性能优化的10大问题及其解决方案问题1:reduce task数目不合适解决方式:需根据实际情况调节默认配置,调整方式是修改参数spark.default.parallelism。通常,reduce数目设置为core数目的2到3倍。数量太大,造成很多小任务,增加启动任务的开销;数目太少,任... 阅读全文
posted @ 2015-09-09 11:25 暗痛 阅读(928) 评论(0) 推荐(0)
摘要:应用属性属性名缺省值意义spark.app.name(none)The name of your application. This will appear in the UI and in log data.spark.master(none)The cluster manager to conn... 阅读全文
posted @ 2015-09-08 17:40 暗痛 阅读(575) 评论(0) 推荐(0)
摘要:Spark的各种运行模式虽然启动方式,运行位置,调度手段有所不同,但它们所要完成的任务基本都是一致的,就是在合适的位置安全可靠的根据用户的配置和Job的需要管理和运行Task,这里粗略的列举一下在运行调度过程中各种需要考虑的问题环境变量的传递 Jar包和各种依赖文件的分发 Task的管理和序列化等 ... 阅读全文
posted @ 2015-09-08 17:37 暗痛 阅读(546) 评论(0) 推荐(0)
摘要:Spark的运行模式多种多样,在单机上既可以以本地模式运行,也可以以伪分布式模式运行。而当以分布式的方式运行在Cluster集群中时,底层的资源调度可以使用Mesos 或者是Hadoop Yarn ,也可以使用Spark自带的Standalone Deploy模式Spark处于活跃的开发过程中,代码... 阅读全文
posted @ 2015-09-08 17:36 暗痛 阅读(674) 评论(0) 推荐(0)
摘要:随着Spark的逐渐成熟完善,越来越多的可配置参数被添加到Spark中来,本文试图通过阐述这其中部分参数的工作原理和配置思路,和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config... 阅读全文
posted @ 2015-09-08 17:35 暗痛 阅读(1014) 评论(0) 推荐(0)
摘要:随着Spark的逐渐成熟完善,越来越多的可配置参数被添加到Spark中来,本文试图通过阐述这其中部分参数的工作原理和配置思路,和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config... 阅读全文
posted @ 2015-09-08 17:34 暗痛 阅读(1581) 评论(0) 推荐(0)
摘要:随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 在Spark的官方文档http://spark.apache.org/docs/latest/configuration.html 中提供了这些可配置参数中相当大一部分的说明.但是文档的更新总是落后于代码的开发的, 还有一... 阅读全文
posted @ 2015-09-08 17:31 暗痛 阅读(1447) 评论(0) 推荐(0)
摘要:随着Spark的逐渐成熟完善,越来越多的可配置参数被添加到Spark中来,本文试图通过阐述这其中部分参数的工作原理和配置思路,和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config... 阅读全文
posted @ 2015-09-08 17:30 暗痛 阅读(627) 评论(0) 推荐(0)
摘要:引言相对Hadoop, Spark在处理需要迭代运算的机器学习训练等任务上有着很大性能提升,同时提供了批处理、实时数据处理、机器学习以及图算法等一站式的服务,因此最近大家一起来学习Spark,特别是MLLib。Spark中使用了RDD(Resilient Distributed Datasets, ... 阅读全文
posted @ 2015-09-08 15:48 暗痛 阅读(1868) 评论(0) 推荐(0)
摘要:Apache Mesos能够成为最优秀的数据中心资源管理器的一个重要功能是面对各种类型的应用,它具备像交警一样的疏导能力。本文将深入Mesos的资源分配内部, 探讨Mesos是如何根据客户应用需求,平衡公平资源共享的。在开始之前,如果读者还没有阅读这个系列的前序文章,建议首先阅读它们。第一篇是Mes... 阅读全文
posted @ 2015-09-07 16:36 暗痛 阅读(1413) 评论(0) 推荐(0)
摘要:简介hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该 NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现,如图1所示。 hadoop2就解决... 阅读全文
posted @ 2015-09-06 17:29 暗痛 阅读(349) 评论(0) 推荐(0)
摘要:第一部分 Hadoop 2.2 下载 Hadoop我们从Apache官方网站直接下载最新版本Hadoop2.2。官方目前是提供了linux32位系统可执行文件,所以如果需要在64位系统上部署则需要单独下载src源码自行编译(10楼评论中提供了一个解决方法链接)。下载地址:http://apa... 阅读全文
posted @ 2015-08-24 16:09 暗痛 阅读(192) 评论(0) 推荐(0)
摘要:ZooKeeper是一个分布式开源框架,提供了协调分布式应用的基本服务,它向外部应用暴露一组通用服务——分布式同步(Distributed Synchronization)、命名服务(Naming Service)、集群维护(Group Maintenance)等,简化分布式应用协调及其管理的难度,... 阅读全文
posted @ 2015-08-24 15:59 暗痛 阅读(266) 评论(0) 推荐(0)
摘要:ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。Zookeeper是hadoop的一个子项目,其发展历程无需赘述。在分布式应用中,由于工程师不能很好地使用锁机制,以及基于消息的协调机制不适合在某些... 阅读全文
posted @ 2015-08-24 15:13 暗痛 阅读(194) 评论(0) 推荐(0)
摘要:http://blog.csdn.net/xiao_jun_0820/article/details/38111305 阅读全文
posted @ 2015-08-21 18:10 暗痛 阅读(163) 评论(0) 推荐(0)