随笔分类 -  Hadoop Sample

添加文件到HDFS的集中缓存
摘要:需求是这样的,有一些文件,需要常驻内存,提高读取效率的情况下,可以使用HDFS的缓存机制进行预先缓存 先添加POOL,然后添加需要缓存的文件即可 hdfs cacheadmin -addPool hdfstest hdfs cacheadmin -listPools hdfs cacheadmin -addDirective -path /jdk1.7.tar.gz ... 阅读全文

posted @ 2016-06-21 22:14 tneduts 阅读(318) 评论(0) 推荐(0)

hadoop从非HA转到NAMENODE HA时需要注意的一个问题
摘要:配置core-site.xml 配置hdfs-site.xml 配置mapred-site.xml 配置yarn-site.xml 纷发至其他节点 修改RM 2 ..N 上面的节点信息 格式化ZK hdfs zkfc -formatZK 初始化journalnode : hdfs namenode 阅读全文

posted @ 2016-05-31 12:24 tneduts 阅读(441) 评论(0) 推荐(1)

webhdfs 使用shell下载文件
摘要:echo "test web hdfs how to use" >> foo.txt hdfs dfs -put foo.txt / HDFS启用webhdfs之后,可以在没有安装hadoop的机器上使用shell命令或cmd命令来获取文件: 例如windows机器上可以使用: "C:\Program Files (x86)\Gow\bin\wget.exe" -O foo.tx... 阅读全文

posted @ 2016-04-06 14:59 tneduts 阅读(1608) 评论(0) 推荐(0)

手动处理datanode磁盘间使用不均的问题
摘要:http://wiki.apache.org/hadoop/FAQ#On_an_individual_data_node.2C_how_do_you_balance_the_blocks_on_the_disk.3F 关于这个问题,Hadoop暂时未提供自动解决的方案,已经提上日程,jira上有记录。 hadoop wiki上提到了手动处理的解决方案。如上链接如示。 问题描... 阅读全文

posted @ 2016-03-13 08:56 tneduts 阅读(598) 评论(0) 推荐(0)

Hadoop安装lzo实验
摘要:参考http://blog.csdn.net/lalaguozhe/article/details/10912527 环境:hadoop2.3cdh5.0.2 hive 1.2.1 目标:安装lzo 测试作业运行与hive表创建使用lzo格式存储 之前安装试用snappy的时候,发现cdh解压后的native中已经包含了libsnappy之类的本地库,但是没有包含lzo. 所以lzo的使... 阅读全文

posted @ 2016-01-23 09:07 tneduts 阅读(811) 评论(0) 推荐(0)

关于mapreduce.map.java.opts
摘要:a) Update the property in relevant mapred-site.xml(from where client load the config). b) Import the mapred-site.xml configuration file in the job startup command line using "-conf mapred-site.xml"... 阅读全文

posted @ 2016-01-21 10:47 tneduts 阅读(9422) 评论(1) 推荐(0)

指定作业提交的优先级和队列
摘要:hadoop jar /home/ochadoop/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0-cdh5.0.2.jar pi -Dmapreduce.job.queuename=ochadoop 50 100 作业提交到的队列:mapreduce.job.queuename 作业优先级:mapre... 阅读全文

posted @ 2016-01-20 07:34 tneduts 阅读(3039) 评论(0) 推荐(0)

hadoop日常运维与升级总结
摘要:日常运维 升级 问题处理方法 日常运维 进程管理 由于配置文件的更改,需要重启生效, 或者是进程自己因某种致命原因终止, 或者发现进程工作出现异常等情况下,需要进行手动进程的关闭或启动, 或者是增删节点过程中的需要, 进程的关闭与启动,使用 hadoop-daemon.sh start|stop datanode/namenode/journalnode/zkfc yarn-da... 阅读全文

posted @ 2016-01-19 08:30 tneduts 阅读(5674) 评论(1) 推荐(0)

Containers Reserved yarn resourcemanager
摘要:yarn rm的管理页面中显示了集群的概况,其中有一个指标叫Containers Reserved . 预留的容器,为什么会预留,集群的资源使用饱合,新的app请求的资源一般会进入pending状态,为什么需要预留, 查阅资料说是,如果app申请的资源不太容易分配,比如新的app是一个计算密集型的,一个task需要6个vcores,其他任务需要一个, 则刚释放的资源如果不预留,就会被其他任务... 阅读全文

posted @ 2016-01-15 17:42 tneduts 阅读(553) 评论(0) 推荐(0)

mapred-site.xml 配置在线更新
摘要:环境:ibm jdk , cdh2.35.0.2 需求:更新mapred-site.xml 中的mapreduce.map.java.opts 和 mapreduce.reduce.java.opts 中部分jvm相关的参数。 主要是去掉原来使用的大页面参数 Xlp 和增大xms xmx参数 目标:不重启集群的nodemanager进程,修改的mapred-site.xml中的项目是否会生... 阅读全文

posted @ 2016-01-13 20:38 tneduts 阅读(819) 评论(0) 推荐(0)

虚拟机群安装多个hadoop集群时遇到的问题
摘要:背景,原来在我的虚拟机集群(nn1,nn2)中安装的是cdh23502,后来做升级实验,升到cdh26550,因为生产中使用的环境是cdh23502,所以再次切换回去。 切换的过程中,遇到一些问题,特记录于此。仍然共用原来的zookeeper 1 启动nodemanager的时候,报异常如下: FATAL org.apache.hadoop.yarn.server.nodemanage... 阅读全文

posted @ 2016-01-13 20:26 tneduts 阅读(1881) 评论(0) 推荐(0)

Hadoop2.6 datanode配置在线更新
摘要:datanode 的配置可以在线更新了,http://blog.cloudera.com/blog/2015/05/new-in-cdh-5-4-how-swapping-of-hdfs-datanode-drives/ 在大的hadoop生产集群中,每一台机器都会配置多块硬盘,而硬盘的损坏也是常态,如何让硬盘的损坏不影响正常的生产呢? 如果在hdfs-site.xml中把 dfs.datan... 阅读全文

posted @ 2016-01-09 11:11 tneduts 阅读(500) 评论(0) 推荐(0)

Hadoop多硬盘配置时的注意事项
摘要:dfs.datanode.fsdataset.volume.choosing.policy org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy dfs.datanode.available-space-volume-choosing-policy.balanced-s... 阅读全文

posted @ 2016-01-01 14:20 tneduts 阅读(1414) 评论(0) 推荐(0)

zookeeper 相关学习资料
摘要:zookeeper的配置:http://www.cnblogs.com/yuyijq/p/3438829.html zookeeper运维:http://blog.csdn.net/hengyunabc/article/details/19006911 官方指导文档 :http://zookeeper.apache.org/doc/r3.4.5/zookeeperAdmin.html#sc_z... 阅读全文

posted @ 2015-12-23 15:37 tneduts 阅读(224) 评论(0) 推荐(0)

Hive分析hadoop进程日志
摘要:想把hadoop的进程日志导入hive表进行分析,遂做了以下的尝试。 关于hadoop进程日志的解析 使用正则表达式获取四个字段,一个是日期时间,一个是日志级别,一个是类,最后一个是详细信息, 然后在hive中建一个表,可以用来方便查询。 2015-12-18 22:23:23,357 INFO org.apache.hadoop.yarn.server.nodeman... 阅读全文

posted @ 2015-12-22 14:01 tneduts 阅读(982) 评论(0) 推荐(0)

hadoop2.3cdh5.0.2 upgrade to hadoop2.5cdh5.5.0
摘要:两台机器,nn1,nn2搭建的ha,同时又担任nn,dn,rm,nm,jn,zkfc,zk等职能。 以下是升级回滚再升级的记录。仅供参考,同时参考了cdh官网的说明,官网主要是使用CM的。 1 官网上下载hadoop2.6cdh5.5.tar包和hadoop的rpm包 rpm2cpio hadoop.rpm | cpio –div 可以从里面找到我们需要的native的文件 。 2 ... 阅读全文

posted @ 2015-12-22 13:52 tneduts 阅读(208) 评论(0) 推荐(0)

Nagios check_logfiles插件的使用记录
摘要:1 获取与安装https://labs.consol.de/assets/downloads/nagios/check_logfiles-3.7.4.tar.gz链接可能会失效,建议去官网下载。https://labs.consol.de/nagios/check_logfiles/阅读官网的使用说... 阅读全文

posted @ 2015-12-19 07:22 tneduts 阅读(582) 评论(0) 推荐(0)

Hadoop Kernel tunning
摘要:/etc/security/limits.conf @ochadoop soft nofile 102642 @ochadoop hard nofile 102642 @ochadoop soft nproc unlimited @ochadoop hard nproc unlimited @ochadoop soft memlock unlimited ... 阅读全文

posted @ 2015-12-16 07:30 tneduts 阅读(224) 评论(0) 推荐(0)

cloudera cdh native lib
摘要:如果通过命令行的方式安装cloudera 版本的hadoop,下载它的cdh版本。 解压后执行,你会发现报warning,没有native的库,lib/native是空的。 如何获取native的文件呢? 1.cdh里面有src文件,可以编译生成native的包,不过这种方式非常难搞,需要网络环境,而且编译过程复杂,耗时较长。 2.去官网下载相应版本的hadoop rpm包,然后解压即可。... 阅读全文

posted @ 2015-12-14 19:47 tneduts 阅读(750) 评论(1) 推荐(0)

namenode metadata 备份与恢复实验
摘要:https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#dfsadmin -metasave filename Save Namenode's primary data structures to filename in the directory specifie... 阅读全文

posted @ 2015-12-14 15:44 tneduts 阅读(1577) 评论(0) 推荐(0)

导航