文章分类 -  hadoop

摘要:在本节中,我们着重学习MapReduce编程模型中的Combiner组件。 每一个map都可能会产生大量的本地输出,Combiner的作用就是对map端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一。 1)、Comb... 阅读全文
posted @ 2015-10-22 10:10 Q_Quan 阅读(160) 评论(0) 推荐(0)
摘要:Jobtracker重启Job recovery过程分析1.Job Recovery的有关配置项配置项默认值含义mapred.jobtracker.restart.recoverfalsetrue时JT重启之前运行的job可以在jobtracker restart之后恢复,false则需要重新运行。... 阅读全文
posted @ 2015-08-07 13:35 Q_Quan 阅读(178) 评论(0) 推荐(0)
摘要:早期搭建Hadoop集群的时候,在做主机和IP解析的时候,通常的做法是写hosts文件,但是Hadoop集群大了以后做 hosts文件很麻烦,每次加新的服务器都需要整个集群重新同步一次hosts文件,另外,如果在同一个域下面做两个集群,做distcp,也需要把两个 集群的hosts文件全写完整并完全... 阅读全文
posted @ 2015-07-15 10:34 Q_Quan 阅读(182) 评论(0) 推荐(0)
摘要:周末去了趟外地,受托给某省移动公司(经确认更正,是中国移动位置基地,不是省公司)做了一下Hadoop集群故障分析和性能调优,把一些问题点记录下来。该 系统用于运营商的信令数据,大约每天1T多数据量,20台Hadoop服务器,赞叹一下运营商乃真土豪,256G内存,32核CPU,却挂了6块2T硬 盘。还... 阅读全文
posted @ 2015-07-15 10:33 Q_Quan 阅读(1200) 评论(0) 推荐(0)
摘要:记录一下在2.x里面不会很常见的报错。只是在测试集群中发生,生产集群大概很少有人会去重启Namenode吧,特别是做了HA的。场景是在2.x里做好了Namenode HA,以Namespace URI方式访问HDFS时,报错,然后两个Namenode貌似都是standby,然后历史任务服务器无法启动... 阅读全文
posted @ 2015-07-15 10:29 Q_Quan 阅读(420) 评论(0) 推荐(1)
摘要:从公司离职有几天了,今天回去看同事,想一起吃饭,没成想摊上大事了。说下午hadoop集群的机房停电了,然后集群就启动不了 了,几个人从下午4点多折腾到8点多还没搞定,有几台服务器找不到硬盘,还有内网ping不通的。反正是有10来台服务器起不来datanode和 tasktracker了。于是在原公司... 阅读全文
posted @ 2015-07-15 10:27 Q_Quan 阅读(261) 评论(0) 推荐(1)
摘要:记录一些Hive的优化点,和能够提升的效率差异。Hive是目前应用最多最广的SQL on Hadoop工具,近期很多专业的大数据公司推出了很多新的,基于列式或者内存热数据的SQL工具,像Impala,Tez,Spark等等,但是 Hive仍然是目前使用率最高和普及面最广的SQL on Hadoop的... 阅读全文
posted @ 2015-07-15 10:22 Q_Quan 阅读(152) 评论(0) 推荐(1)
摘要:昨天同事遇到一个hadoop故障,找了半天没看出问题,问到我这里,花了一会解决了一下,估计这是我给暴风的集群解决的最后的故障了,以后就不定给谁解决问题去了。只截下来了Namenode的报错Log,Datanode的刷屏刷过去了,不过都差不多。123456789101112131415162013-0... 阅读全文
posted @ 2015-07-15 10:20 Q_Quan 阅读(226) 评论(0) 推荐(1)
摘要:Linux操作系统针对Hadoop的参数和命令调优。对于Hadoop本身的参数调优,写的已经不少了,操作系统方面的不多,记录一下我用的系统参数。先写一点,想起哪个再往里面加。一、系统内核参数调优sysctl.conf123456789101112131415161718192021222324252... 阅读全文
posted @ 2015-07-15 10:14 Q_Quan 阅读(134) 评论(0) 推荐(0)
摘要:新部署了几个接收服务器,因为以前的老业务都是nginx接收的,没法迁移到scribe或者fluentd上。所以,只能在这些 服务器上部署hadoop的client,用fs -put的方法把nginx生成的NCSA日志定时放到HDFS里。也就是在nginx服务器上需要部署hadoop的client。h... 阅读全文
posted @ 2015-07-15 10:11 Q_Quan 阅读(187) 评论(0) 推荐(0)
摘要:这段时间一直在搞Hadoop集群迁移,最近Hadoop也没出什么大问题,就没更新运维系列。这次的运维系列也跟Hadoop自己的故障无关,主要是自动化运维。不 过我确实犯了一个严重的错误,在迁移新集群的时候,为了安装部署方便,我把hbase打成了rpm包的方式进行部署。在编写spec文件的时候,一个变... 阅读全文
posted @ 2015-07-15 10:07 Q_Quan 阅读(148) 评论(0) 推荐(0)
摘要:这两天有业务部门反馈,总有hive跑某天的log失败。看了一下log,虽然各种报错不一样,但基本都是OOM,追了一下午,终于追出来原因了,特此记录一下。这个问题很诡异,map阶段oom,按说map的时候一个map对应一个数据块,最大也就占用128M内存,怎么会溢出呢,通常都应该是reduce溢出才对... 阅读全文
posted @ 2015-07-15 10:05 Q_Quan 阅读(256) 评论(0) 推荐(0)
摘要:今天集群神秘崩溃,影响范围较大,分析故障原因比较有趣,特此记录一下。之前也发生过类似的事情,不过没想起写blog,今天正好抓出log来写了。当时的状况是,下午16点左右,集群处于比较繁忙的状态,突然集群数台服务器崩溃,已经无法ssh远程连接服务器,只好找ops重启服务器,然后就 是正常的重启data... 阅读全文
posted @ 2015-07-15 10:01 Q_Quan 阅读(441) 评论(0) 推荐(0)
摘要:记录一下,可能算是个比较典型的故障,磁盘满导致的task tracker无法启动。故障是一台tasktracker挂了,怎么也起不来,报错信息如下。2013-03-2617:34:57,620ERRORorg.apache.hadoop.mapred.TaskTracker:Cannotstartt... 阅读全文
posted @ 2015-07-15 09:47 Q_Quan 阅读(338) 评论(0) 推荐(0)
摘要:Hive 0.10发布了,修正了一些bug,搞了一些新特性,对提高工作效率很有帮助,于是尝试升级了一下,然后遇到了一些问题,记录一下。主要是看上了下面几个feature,打算换上看看。1.AllowSELECTwithoutamapreducejob2. Implement"showcreateta... 阅读全文
posted @ 2015-07-15 09:35 Q_Quan 阅读(278) 评论(0) 推荐(0)
摘要:下周准备去某地做Hadoop相关的技术培训,主要负责讲解Hadoop的安装部署和运维部分,赶制了一份PPT,将平时工作中遇 到的问题也提取了一下,希望能对Hadoop运维相关人员有所帮助,算是个补上的运维记录吧,错误数据均来自以前日常工作中的Hadoop日志。也有一点点跟Hadoop相关的非保密数据... 阅读全文
posted @ 2015-07-15 09:27 Q_Quan 阅读(188) 评论(0) 推荐(0)
摘要:这两天参加了51CTO举办的云计算架构师峰会,办的非常好,很多干货。确实比一些名不副实的所谓大数据实际都是厂商推销产品的会议要强得多。但是其实这事跟Hadoop运维没关系,但是这两天集群发生的故障影响了我听报告。说 起来很奇幻,集群里面有三台服务器需要升级CPU,这本无可厚非。但是不多不少,恰恰是三... 阅读全文
posted @ 2015-07-15 09:25 Q_Quan 阅读(264) 评论(0) 推荐(0)
摘要:最近遇到了一个问题,执行start-all.sh的时候发现JPS一下namenode没有启动 每次开机都得重新格式化一下namenode才可以 其实问题就出在tmp文件,默认的tmp文件每次重新开机会被清空,与此同时namenode的格式化信息就会丢失 于是我们得重新配置一个tmp... 阅读全文
posted @ 2015-07-12 16:43 Q_Quan 阅读(124) 评论(0) 推荐(0)