摘要:
摘要:由于业务需要,在mapreduce汇总时需要关联两个基础表,一个60M左右,不影响mr运行,另一个表,大小约为380M,行数为1700万行左右,在默认配置下,一旦加载这个数据就会在reduce阶段卡住最后报超时错误,经过jvm的调整,终于解决了mr汇总的问题,这里简单总结下,回头有时间再详细看 阅读全文
随笔分类 - Hadoop
RPC实现的底层原理及应用
2016-08-22 14:18 by 牛仔裤的夏天, 1160 阅读, 收藏,
摘要:
摘要:RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。Hadoop的进程间交互都是通过RPC来进行的 阅读全文
Hadoop基础知识
2016-08-16 19:56 by 牛仔裤的夏天, 289 阅读, 收藏,
摘要:
摘要:Hadoop的安装目录了解、etc的核心配置项、hadoop的启动、HDFS文件的block块级副本的存放策略、checkpoint触发设置。 1.hadoop目录了解 bin:可执行文件,命令启动的脚本等 sbin:系统级可执行文件,服务的启动和停止相关 etc:配置文件 lib:nativ 阅读全文
分布式集群搭建(hadoop2.6.0+CentOS6.5)
2016-08-07 18:52 by 牛仔裤的夏天, 794 阅读, 收藏,
摘要:
摘要:之前安装过hadoop1.2.1集群,发现比较老了,后来安装cloudera(hadoop2.6.0),发现集成度比较高,想知道原生的hadoop什么样子,于是着手搭建一个分布式集群(三台),方便与cloudera的安装进行对比,来更加深入学习Hadoop整个生态系统。一开始安装的CentOS 阅读全文
Hadoop中Combiner的使用
2016-07-18 11:23 by 牛仔裤的夏天, 478 阅读, 收藏,
摘要:
注:转载自http://blog.csdn.net/ipolaris/article/details/8723782 在MapReduce中,当map生成的数据过大时,带宽就成了瓶颈,怎样精简压缩传给Reduce的数据,有不影响最终的结果呢。有一种方法就是使用Combiner,Combiner号称本 阅读全文
编写第一个MapReduce程序—— 统计气温
2016-07-11 15:01 by 牛仔裤的夏天, 553 阅读, 收藏,
摘要:
摘要:hadoop安装完成后,像学习其他语言一样,要开始写一个“hello world!” ,看了一些学习资料,模仿写了个程序。对于一个C#程序员来说,写个java程序,并调用hadoop的包,并跑在linux系统下,是一次新的尝试。 hadoop ncdc气象数据: http://down.51c 阅读全文
Linux环境安装Eclipse及配置hadoop插件
2016-07-10 16:07 by 牛仔裤的夏天, 2316 阅读, 收藏,
摘要:
摘要:第一次使用hadoop,另外eclipse也不太熟悉,所以把自己在安装过程中得琐碎记录下来。以备以后查看。 硬软件环境: ▪ 虚拟机: VMware Workstation 11.0.0 build-2305329 ▪ 虚拟机安装操作系统: CentOS 6.5 ▪ JDK: 1.6.0_45 阅读全文
Hadoop的核心组件和生态圈
2016-04-09 10:36 by 牛仔裤的夏天, 1637 阅读, 收藏,
摘要:
摘要:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算. 1.hadoop核心组件—HDFS ■ HDFS的文件被分成块进行存储,块的默认大小 阅读全文
安装hadoop集群服务器(hadoop1.2.1)
2016-03-20 17:22 by 牛仔裤的夏天, 318 阅读, 收藏,
摘要:
摘要:hadoop,一个分布式系统基础架构,可以充分利用集群的威力进行高速运算和存储。本文主要介绍hadoop的安装与集群服务器的配置。 准备文件: ▪ VMware11.0.0 ▪ CentOS-6.5-x86_64-bin-DVD1.iso ▪ jdk-6u45-linux-x64-rpm.bi 阅读全文
浙公网安备 33010602011771号