Hadoop Sample - 随笔分类(第2页) - tneduts

添加文件到HDFS的集中缓存

摘要：需求是这样的，有一些文件，需要常驻内存，提高读取效率的情况下，可以使用HDFS的缓存机制进行预先缓存先添加POOL，然后添加需要缓存的文件即可 hdfs cacheadmin -addPool hdfstest hdfs cacheadmin -listPools hdfs cacheadmin -addDirective -path /jdk1.7.tar.gz ... 阅读全文

posted @ 2016-06-21 22:14 tneduts 阅读(318) 评论(0) 推荐(0)

hadoop从非HA转到NAMENODE HA时需要注意的一个问题

摘要：配置core-site.xml 配置hdfs-site.xml 配置mapred-site.xml 配置yarn-site.xml 纷发至其他节点修改RM 2 ..N 上面的节点信息格式化ZK hdfs zkfc -formatZK 初始化journalnode : hdfs namenode 阅读全文

posted @ 2016-05-31 12:24 tneduts 阅读(441) 评论(0) 推荐(1)

摘要：echo "test web hdfs how to use" >> foo.txt hdfs dfs -put foo.txt / HDFS启用webhdfs之后，可以在没有安装hadoop的机器上使用shell命令或cmd命令来获取文件：例如windows机器上可以使用： "C:\Program Files (x86)\Gow\bin\wget.exe" -O foo.tx... 阅读全文

posted @ 2016-04-06 14:59 tneduts 阅读(1608) 评论(0) 推荐(0)

手动处理datanode磁盘间使用不均的问题

摘要：http://wiki.apache.org/hadoop/FAQ#On_an_individual_data_node.2C_how_do_you_balance_the_blocks_on_the_disk.3F 关于这个问题，Hadoop暂时未提供自动解决的方案，已经提上日程，jira上有记录。 hadoop wiki上提到了手动处理的解决方案。如上链接如示。问题描... 阅读全文

posted @ 2016-03-13 08:56 tneduts 阅读(598) 评论(0) 推荐(0)

Hadoop安装lzo实验

摘要：参考http://blog.csdn.net/lalaguozhe/article/details/10912527 环境：hadoop2.3cdh5.0.2 hive 1.2.1 目标：安装lzo 测试作业运行与hive表创建使用lzo格式存储之前安装试用snappy的时候，发现cdh解压后的native中已经包含了libsnappy之类的本地库，但是没有包含lzo. 所以lzo的使... 阅读全文

posted @ 2016-01-23 09:07 tneduts 阅读(811) 评论(0) 推荐(0)

关于mapreduce.map.java.opts

摘要：a) Update the property in relevant mapred-site.xml(from where client load the config). b) Import the mapred-site.xml configuration file in the job startup command line using "-conf mapred-site.xml"... 阅读全文

posted @ 2016-01-21 10:47 tneduts 阅读(9422) 评论(1) 推荐(0)

指定作业提交的优先级和队列

摘要：hadoop jar /home/ochadoop/app/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.3.0-cdh5.0.2.jar pi -Dmapreduce.job.queuename=ochadoop 50 100 作业提交到的队列：mapreduce.job.queuename 作业优先级：mapre... 阅读全文

posted @ 2016-01-20 07:34 tneduts 阅读(3039) 评论(0) 推荐(0)

hadoop日常运维与升级总结

摘要：日常运维升级问题处理方法日常运维进程管理由于配置文件的更改，需要重启生效，或者是进程自己因某种致命原因终止，或者发现进程工作出现异常等情况下，需要进行手动进程的关闭或启动，或者是增删节点过程中的需要，进程的关闭与启动，使用 hadoop-daemon.sh start|stop datanode/namenode/journalnode/zkfc yarn-da... 阅读全文

posted @ 2016-01-19 08:30 tneduts 阅读(5674) 评论(1) 推荐(0)

Containers Reserved yarn resourcemanager

摘要：yarn rm的管理页面中显示了集群的概况，其中有一个指标叫Containers Reserved . 预留的容器，为什么会预留，集群的资源使用饱合，新的app请求的资源一般会进入pending状态，为什么需要预留，查阅资料说是，如果app申请的资源不太容易分配，比如新的app是一个计算密集型的，一个task需要6个vcores，其他任务需要一个，则刚释放的资源如果不预留，就会被其他任务... 阅读全文

posted @ 2016-01-15 17:42 tneduts 阅读(553) 评论(0) 推荐(0)

mapred-site.xml 配置在线更新

摘要：环境：ibm jdk , cdh2.35.0.2 需求：更新mapred-site.xml 中的mapreduce.map.java.opts 和 mapreduce.reduce.java.opts 中部分jvm相关的参数。主要是去掉原来使用的大页面参数 Xlp 和增大xms xmx参数目标：不重启集群的nodemanager进程，修改的mapred-site.xml中的项目是否会生... 阅读全文

posted @ 2016-01-13 20:38 tneduts 阅读(819) 评论(0) 推荐(0)

虚拟机群安装多个hadoop集群时遇到的问题

摘要：背景，原来在我的虚拟机集群（nn1,nn2)中安装的是cdh23502,后来做升级实验，升到cdh26550,因为生产中使用的环境是cdh23502，所以再次切换回去。切换的过程中，遇到一些问题，特记录于此。仍然共用原来的zookeeper 1 启动nodemanager的时候，报异常如下： FATAL org.apache.hadoop.yarn.server.nodemanage... 阅读全文

posted @ 2016-01-13 20:26 tneduts 阅读(1881) 评论(0) 推荐(0)

Hadoop2.6 datanode配置在线更新

摘要：datanode 的配置可以在线更新了，http://blog.cloudera.com/blog/2015/05/new-in-cdh-5-4-how-swapping-of-hdfs-datanode-drives/ 在大的hadoop生产集群中，每一台机器都会配置多块硬盘，而硬盘的损坏也是常态，如何让硬盘的损坏不影响正常的生产呢？如果在hdfs-site.xml中把 dfs.datan... 阅读全文

posted @ 2016-01-09 11:11 tneduts 阅读(500) 评论(0) 推荐(0)

Hadoop多硬盘配置时的注意事项

摘要：dfs.datanode.fsdataset.volume.choosing.policy org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy dfs.datanode.available-space-volume-choosing-policy.balanced-s... 阅读全文

posted @ 2016-01-01 14:20 tneduts 阅读(1414) 评论(0) 推荐(0)

zookeeper 相关学习资料

摘要：zookeeper的配置：http://www.cnblogs.com/yuyijq/p/3438829.html zookeeper运维：http://blog.csdn.net/hengyunabc/article/details/19006911 官方指导文档：http://zookeeper.apache.org/doc/r3.4.5/zookeeperAdmin.html#sc_z... 阅读全文

posted @ 2015-12-23 15:37 tneduts 阅读(224) 评论(0) 推荐(0)

Hive分析hadoop进程日志

摘要：想把hadoop的进程日志导入hive表进行分析，遂做了以下的尝试。关于hadoop进程日志的解析使用正则表达式获取四个字段，一个是日期时间，一个是日志级别，一个是类，最后一个是详细信息，然后在hive中建一个表，可以用来方便查询。 2015-12-18 22:23:23,357 INFO org.apache.hadoop.yarn.server.nodeman... 阅读全文

posted @ 2015-12-22 14:01 tneduts 阅读(982) 评论(0) 推荐(0)

hadoop2.3cdh5.0.2 upgrade to hadoop2.5cdh5.5.0

摘要：两台机器，nn1,nn2搭建的ha,同时又担任nn,dn,rm,nm,jn,zkfc,zk等职能。以下是升级回滚再升级的记录。仅供参考，同时参考了cdh官网的说明，官网主要是使用CM的。 1 官网上下载hadoop2.6cdh5.5.tar包和hadoop的rpm包 rpm2cpio hadoop.rpm | cpio –div 可以从里面找到我们需要的native的文件。 2 ... 阅读全文

posted @ 2015-12-22 13:52 tneduts 阅读(208) 评论(0) 推荐(0)

Nagios check_logfiles插件的使用记录

摘要：1 获取与安装https://labs.consol.de/assets/downloads/nagios/check_logfiles-3.7.4.tar.gz链接可能会失效，建议去官网下载。https://labs.consol.de/nagios/check_logfiles/阅读官网的使用说... 阅读全文

posted @ 2015-12-19 07:22 tneduts 阅读(582) 评论(0) 推荐(0)

Hadoop Kernel tunning

摘要：/etc/security/limits.conf @ochadoop soft nofile 102642 @ochadoop hard nofile 102642 @ochadoop soft nproc unlimited @ochadoop hard nproc unlimited @ochadoop soft memlock unlimited ... 阅读全文

posted @ 2015-12-16 07:30 tneduts 阅读(224) 评论(0) 推荐(0)

cloudera cdh native lib

摘要：如果通过命令行的方式安装cloudera 版本的hadoop,下载它的cdh版本。解压后执行，你会发现报warning,没有native的库，lib/native是空的。如何获取native的文件呢？ 1.cdh里面有src文件，可以编译生成native的包，不过这种方式非常难搞，需要网络环境，而且编译过程复杂，耗时较长。 2.去官网下载相应版本的hadoop rpm包，然后解压即可。... 阅读全文

posted @ 2015-12-14 19:47 tneduts 阅读(750) 评论(1) 推荐(0)

namenode metadata 备份与恢复实验

摘要：https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#dfsadmin -metasave filename Save Namenode's primary data structures to filename in the directory specifie... 阅读全文

posted @ 2015-12-14 15:44 tneduts 阅读(1577) 评论(0) 推荐(0)

我的空中楼阁

随笔分类 - Hadoop Sample