上一页 1 2 3 4 5 6 7 8 ··· 10 下一页

2016年1月16日

Device ehth0 is not present

摘要: context: 使用virtualbox 克隆了一个新硬盘,然后配为新建虚机的使用,但ifconfig只能发现lo,没有eth0 解决方案: 当前系统是centos6.6 cd /etc/udev/rules.d rm –f 70-persistent-net.rules reboot 即可 阅读全文

posted @ 2016-01-16 09:23 tneduts 阅读(232) 评论(0) 推荐(0) 编辑

2016年1月15日

Containers Reserved yarn resourcemanager

摘要: yarn rm的管理页面中显示了集群的概况,其中有一个指标叫Containers Reserved . 预留的容器,为什么会预留,集群的资源使用饱合,新的app请求的资源一般会进入pending状态,为什么需要预留, 查阅资料说是,如果app申请的资源不太容易分配,比如新的app是一个计算密集型的,一个task需要6个vcores,其他任务需要一个, 则刚释放的资源如果不预留,就会被其他任务... 阅读全文

posted @ 2016-01-15 17:42 tneduts 阅读(518) 评论(0) 推荐(0) 编辑

2016年1月13日

mapred-site.xml 配置在线更新

摘要: 环境:ibm jdk , cdh2.35.0.2 需求:更新mapred-site.xml 中的mapreduce.map.java.opts 和 mapreduce.reduce.java.opts 中部分jvm相关的参数。 主要是去掉原来使用的大页面参数 Xlp 和增大xms xmx参数 目标:不重启集群的nodemanager进程,修改的mapred-site.xml中的项目是否会生... 阅读全文

posted @ 2016-01-13 20:38 tneduts 阅读(788) 评论(0) 推荐(0) 编辑

虚拟机群安装多个hadoop集群时遇到的问题

摘要: 背景,原来在我的虚拟机集群(nn1,nn2)中安装的是cdh23502,后来做升级实验,升到cdh26550,因为生产中使用的环境是cdh23502,所以再次切换回去。 切换的过程中,遇到一些问题,特记录于此。仍然共用原来的zookeeper 1 启动nodemanager的时候,报异常如下: FATAL org.apache.hadoop.yarn.server.nodemanage... 阅读全文

posted @ 2016-01-13 20:26 tneduts 阅读(1807) 评论(0) 推荐(0) 编辑

2016年1月9日

Hadoop2.6 datanode配置在线更新

摘要: datanode 的配置可以在线更新了,http://blog.cloudera.com/blog/2015/05/new-in-cdh-5-4-how-swapping-of-hdfs-datanode-drives/ 在大的hadoop生产集群中,每一台机器都会配置多块硬盘,而硬盘的损坏也是常态,如何让硬盘的损坏不影响正常的生产呢? 如果在hdfs-site.xml中把 dfs.datan... 阅读全文

posted @ 2016-01-09 11:11 tneduts 阅读(469) 评论(0) 推荐(0) 编辑

2016年1月6日

记一次ganglia的故障分析 mem_report不显示

摘要: ganglia集群中mem_report不能正确显示,有的显示有些不显示。 我通过web开发工具F12,获取生成图片的路径,然后加上&debug=3 显示发现: No matching metrics detected 然后根据这个线索在官网上找到一个类似的问题。 http://sourceforge.net/p/ganglia/mailman/message/29714277/ 其实... 阅读全文

posted @ 2016-01-06 09:54 tneduts 阅读(363) 评论(0) 推荐(0) 编辑

2016年1月1日

Linux 杂记

摘要: 可以用sh -x strangescript来调试。 可以使用sh -n your_script来检查语法,不执行。 删除大的文件,直接使用rm可能会卡死,使用>/path/to/file ,然后 rm. xargs是给命令传递参数的一个过滤器,也是组合多个命令的一个工具. 它把一个数据流分割为一些足够小的块,以方便过滤器和命令进行处理. 由此这个命令也是后置引用的一个强有... 阅读全文

posted @ 2016-01-01 21:23 tneduts 阅读(220) 评论(1) 推荐(0) 编辑

Hadoop多硬盘配置时的注意事项

摘要: dfs.datanode.fsdataset.volume.choosing.policy org.apache.hadoop.hdfs.server.datanode.fsdataset.AvailableSpaceVolumeChoosingPolicy dfs.datanode.available-space-volume-choosing-policy.balanced-s... 阅读全文

posted @ 2016-01-01 14:20 tneduts 阅读(1396) 评论(0) 推荐(0) 编辑

2015年12月29日

spark-env.sh 配置示例

摘要: #spark-env.sh JAVA_HOME=/home/hadoop/app/jdk1.7.0_60 SCALA_HOME=/home/hadoop/app/scala-2.10.3 SPARK_HOME=/home/hadoop/app/spark-1.4.0 SPARK_PID_DIR=$SPARK_HOME/tmp HADOOP_CONF_DIR=/home/hadoop/app... 阅读全文

posted @ 2015-12-29 13:53 tneduts 阅读(16870) 评论(0) 推荐(1) 编辑

Nagios监控ganglia的指标

摘要: 这是nagios与ganglia整合的一部分内容 。 通常我们会把ganglia的监控发送给一个主机,我们可以在这个主机上执行nc localhost 8649 可以获取到所有发往这个主机的信息,以xml的形式查看。 nagios监控ganglia的指标的方法就是使用这个思路,check_ganglia.py 先连通ganglia_host,然后获取所有的xml,然后再解析xml,解析的时候... 阅读全文

posted @ 2015-12-29 11:26 tneduts 阅读(969) 评论(0) 推荐(0) 编辑

2015年12月25日

ELK日志解决方案安装配置与使用

摘要: 官方网站:https://www.elastic.co/products/elasticsearch logstash,elasticsearch,kibana作用如下: logstash:分布在每一台需要采集数据的节点上,需要一个配置文件来获取数据,输入主要支持file,输出支持gangalia,nagios,kafka,elasticsearch. 而且可以简单地配置,就可以把数据结构化... 阅读全文

posted @ 2015-12-25 16:55 tneduts 阅读(814) 评论(0) 推荐(0) 编辑

2015年12月23日

zookeeper 相关学习资料

摘要: zookeeper的配置:http://www.cnblogs.com/yuyijq/p/3438829.html zookeeper运维:http://blog.csdn.net/hengyunabc/article/details/19006911 官方指导文档 :http://zookeeper.apache.org/doc/r3.4.5/zookeeperAdmin.html#sc_z... 阅读全文

posted @ 2015-12-23 15:37 tneduts 阅读(220) 评论(0) 推荐(0) 编辑

2015年12月22日

Hive分析hadoop进程日志

摘要: 想把hadoop的进程日志导入hive表进行分析,遂做了以下的尝试。 关于hadoop进程日志的解析 使用正则表达式获取四个字段,一个是日期时间,一个是日志级别,一个是类,最后一个是详细信息, 然后在hive中建一个表,可以用来方便查询。 2015-12-18 22:23:23,357 INFO org.apache.hadoop.yarn.server.nodeman... 阅读全文

posted @ 2015-12-22 14:01 tneduts 阅读(968) 评论(0) 推荐(0) 编辑

hadoop2.3cdh5.0.2 upgrade to hadoop2.5cdh5.5.0

摘要: 两台机器,nn1,nn2搭建的ha,同时又担任nn,dn,rm,nm,jn,zkfc,zk等职能。 以下是升级回滚再升级的记录。仅供参考,同时参考了cdh官网的说明,官网主要是使用CM的。 1 官网上下载hadoop2.6cdh5.5.tar包和hadoop的rpm包 rpm2cpio hadoop.rpm | cpio –div 可以从里面找到我们需要的native的文件 。 2 ... 阅读全文

posted @ 2015-12-22 13:52 tneduts 阅读(195) 评论(0) 推荐(0) 编辑

2015年12月19日

Nagios check_logfiles插件的使用记录

摘要: 1 获取与安装https://labs.consol.de/assets/downloads/nagios/check_logfiles-3.7.4.tar.gz链接可能会失效,建议去官网下载。https://labs.consol.de/nagios/check_logfiles/阅读官网的使用说... 阅读全文

posted @ 2015-12-19 07:22 tneduts 阅读(560) 评论(0) 推荐(0) 编辑

2015年12月16日

Hadoop Kernel tunning

摘要: /etc/security/limits.conf @ochadoop soft nofile 102642 @ochadoop hard nofile 102642 @ochadoop soft nproc unlimited @ochadoop hard nproc unlimited @ochadoop soft memlock unlimited ... 阅读全文

posted @ 2015-12-16 07:30 tneduts 阅读(215) 评论(0) 推荐(0) 编辑

2015年12月14日

cloudera cdh native lib

摘要: 如果通过命令行的方式安装cloudera 版本的hadoop,下载它的cdh版本。 解压后执行,你会发现报warning,没有native的库,lib/native是空的。 如何获取native的文件呢? 1.cdh里面有src文件,可以编译生成native的包,不过这种方式非常难搞,需要网络环境,而且编译过程复杂,耗时较长。 2.去官网下载相应版本的hadoop rpm包,然后解压即可。... 阅读全文

posted @ 2015-12-14 19:47 tneduts 阅读(731) 评论(1) 推荐(0) 编辑

namenode metadata 备份与恢复实验

摘要: https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html#dfsadmin -metasave filename Save Namenode's primary data structures to filename in the directory specifie... 阅读全文

posted @ 2015-12-14 15:44 tneduts 阅读(1559) 评论(0) 推荐(0) 编辑

2015年12月10日

Hadoop 基准测试与example

摘要: #pi值示例 hadoop jar /app/cdh23502/share/hadoop/mapreduce2/hadoop-mapreduce-examples-2.3.0-cdh5.0.2.jar pi 20 200 #生成数据 第一个参数是行数 第二个参数是位置 hadoop jar /app/cdh23502/share/hadoop/mapreduce2/hadoop-mapred... 阅读全文

posted @ 2015-12-10 22:16 tneduts 阅读(458) 评论(1) 推荐(0) 编辑

container error log

摘要: learn from error… Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#21 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134) at org.a... 阅读全文

posted @ 2015-12-10 13:32 tneduts 阅读(421) 评论(0) 推荐(0) 编辑

hadoop如何处理长时间运行不完成的map/reduce 任务?

摘要: 如果某一个任务在某个节点上长时间不完成,怎么手动干预来处理这种情况?董西成博客上找到的回答:hadoop中有三种特殊的任务,failed task,killed task和speculative task.其中,failed task是由于硬件、程序bug等原因异常退出的任务,比如磁盘空间不足等,k... 阅读全文

posted @ 2015-12-10 10:53 tneduts 阅读(1194) 评论(1) 推荐(0) 编辑

nodemanager execute container fail many times

摘要: ttempt_1448915696877_13139_m_000141_0 100.00 FAILED map > map px42pub:8042 logs Wed, 09 Dec 2015 06:15:17 GMT Wed, 09 Dec 2015 06:20:32 GMT 5mins, 14s... 阅读全文

posted @ 2015-12-10 07:27 tneduts 阅读(506) 评论(0) 推荐(0) 编辑

2015年12月8日

Nagios 自定义插件与安装使用之监控dead datanodes

摘要: 现在我使用nagios来监控hadoop的核心进程,rm,nm,dn,nn,zkfc,jn,zk等,但是有时候进程虽然还在,但是日志不刷新,web ui上可以看到有些datanodes节点已经变为dead状态,不服务.为了在nagios中显示出dead的datanodes我写了自定义的插件,在某一台... 阅读全文

posted @ 2015-12-08 11:16 tneduts 阅读(537) 评论(1) 推荐(0) 编辑

container的生命周期

摘要: Container启动过程主要经历三个阶段:资源本地化、启动并运行container、资源回收,其中,资源本地化指创建container工作目录,从HDFS下载运行container所需的各种资源(jar包、可执行文件等)等,而资源回收则是资源本地化的逆过程,它负责清理各种资源,它们均由ResourceLocalizationService服务完成的。启动container是由Containers... 阅读全文

posted @ 2015-12-08 08:22 tneduts 阅读(1260) 评论(0) 推荐(0) 编辑

2015年12月6日

hdfs 机架感知和复制因子的设置

摘要: dfs.replication 新更新的复制因子的参数对原来的文件不起作用。 譬如说,原来的复制因子是2,则原来文件上传的时候就只有两个副本。 现在把dfs.replication设置为3,重新启动hdfs.不会把原来2个副本的变成三个副本。 如果你需要这样,请执行下面的命令: hadoop fs -setrep -R 3 / 如果你只有2个datanode,但是... 阅读全文

posted @ 2015-12-06 21:47 tneduts 阅读(1856) 评论(0) 推荐(0) 编辑

hdfs-site.xml demo

该文被密码保护。 阅读全文

posted @ 2015-12-06 17:46 tneduts 阅读(2) 评论(0) 推荐(0) 编辑

Hadoop 文件的数量怎么比block的数量多?

摘要: Total files: 23 Total symlinks: 0 Total blocks (validated): 22 (avg. block size 117723 B) Minimally replicated blocks: 22 (100.0 %) Over-replicated blocks: 0 (0.0 %... 阅读全文

posted @ 2015-12-06 17:39 tneduts 阅读(1746) 评论(0) 推荐(0) 编辑

hadoop core-site.xml

摘要: fs.defaultFS hdfs://ochadoopcluster The name of the default file system. A URI whose scheme and authority determine the FileSystem implementatio... 阅读全文

posted @ 2015-12-06 08:42 tneduts 阅读(1395) 评论(1) 推荐(0) 编辑

2015年12月4日

nagios 自定义插件demo

摘要: #!/bin/bash loadavg=$( uptime | awk -F: '{print $4}' | xargs ) load1int=$( echo $loadavg | cut -d "." -f 1 ) load5int=$( echo $loadavg | awk -F, '{print $2}' | xargs | cut -d "." -f 1 ) load15int... 阅读全文

posted @ 2015-12-04 08:03 tneduts 阅读(294) 评论(0) 推荐(0) 编辑

2015年11月28日

关于hadoop 配置文件的一些实验

摘要: 机器配置如下,两台机器,nn2,nn2,搭建基于QJM的高可用集群,zk集群。如果我在yarn-site.xml中配置的nodemanager的可用资源过少,其他配置如果不一致,那么就会造成提交的job,状态是Accepted,但是一直是unassigned,没有资源可以分配,所以就不能runnin... 阅读全文

posted @ 2015-11-28 20:55 tneduts 阅读(398) 评论(1) 推荐(0) 编辑

hadoop yarn configure

摘要: The minimum allocation for every container request at the RM, in MBs. Memory requests lower than this won't take effect, and the specified value will... 阅读全文

posted @ 2015-11-28 10:05 tneduts 阅读(238) 评论(0) 推荐(0) 编辑

2015年11月26日

hadooop 运维之 container error exit code 1

摘要: hadoop container exit code: 1在执行hadoop的时候,发现nodemanager 进程日志里面有这个错误。网上搜索,一般找到的都是yarn classspath配置的问题,这个有可能是别人造成此错误的原因。exit code 1.应该是表示map or reduce 刚... 阅读全文

posted @ 2015-11-26 10:56 tneduts 阅读(577) 评论(0) 推荐(0) 编辑

hadooop 配置多网卡 提供跨网段服务

摘要: http://hortonworks.com/blog/multihoming-on-hadoop-yarn-clusters/https://hadoop.apache.org/docs/r2.6.0/hadoop-project-dist/hadoop-hdfs/HdfsMultihoming.... 阅读全文

posted @ 2015-11-26 06:45 tneduts 阅读(1640) 评论(0) 推荐(0) 编辑

2015年11月24日

记一次hadoop datanode进程问题分析

摘要: 症状:datanode进程还在,但是在web ui接口发现该节点已经被置为dead节点。监测datanode进程日志,开始时一直狂刷很忙,后来停止刷新日志。分析datanode进程日志,发现如下一些错误:datanode.DataNode: PacketResponder java.io.IOExc... 阅读全文

posted @ 2015-11-24 16:52 tneduts 阅读(2597) 评论(0) 推荐(0) 编辑

关于HADOOP HA 中DFSZKFC的理解

摘要: [转自uc技术博客:http://tech.uc.cn/?p=252]FC是要和NN一一对应的,两个NN就要部署两个FC。它负责监控NN的状态,并及时的把状态信息写入ZK。它通过一个独立线程周期性的调用NN上的一个 特定接口来获取NN的健康状态。FC也有选择谁作为Active NN的权利,因为最多只... 阅读全文

posted @ 2015-11-24 16:44 tneduts 阅读(529) 评论(1) 推荐(0) 编辑

2015年11月22日

Linux运维式具之pdsh

摘要: 做系统运维的时候,我们经常需要同时在多台机器上执行相同的命令,这个时候可以使用类似pssh,pdsh的并行执行shell的工具。 当然,之前在没有使用这些工具之前,如果有ssh无密码互访,我们可以自己写for循环来执行,但是自己写的for循环是串行, pdsh是并发。 比如,当你接管一个新的大数据集群的时候,需要做的一件事情就是要熟悉所有的配置信息,以做到心中有数,在熟悉了主配置文件之后, ... 阅读全文

posted @ 2015-11-22 14:49 tneduts 阅读(1236) 评论(3) 推荐(0) 编辑

2015年11月12日

记一次linux服务器问题处理过程

摘要: 本周二的时候,涛哥找我,说明了一件事,在安装ganglia的时候,发生的一个问题。在一台suse 10 sp1的服务器上,安装ganglia的一个依赖包,libconfuse.rpm,安装完成之后,执行任何命令都会出现段错误的提示,而且无法再次ssh登录,也无法直接console登录。ssh登录,提... 阅读全文

posted @ 2015-11-12 09:25 tneduts 阅读(467) 评论(1) 推荐(0) 编辑

2015年11月9日

Kafka原理与java simple producer示例

摘要: brokers和消费者使用zk来获取状态信息和追踪消息坐标。 每一个partition是一个有序的,不可变的消息序列。 只有当partition里面的file置换到磁盘文件以后,才开放给消费者来消费。 每一个partition是跨服务器地被复制到其他地方,为了容错的目的。 这个partition可以 阅读全文

posted @ 2015-11-09 17:16 tneduts 阅读(1593) 评论(3) 推荐(0) 编辑

2015年11月8日

【转载】kafka的工作原理

摘要: http://www.ibm.com/developerworks/cn/opensource/os-cn-kafka/index.html 消息队列 消息队列技术是分布式应用间交换信息的一种技术。消息队列可驻留在内存或磁盘上, 队列存储消息直到它们被应用程序读走。通过消息队列,应用程序可独立地执行--它们不需要知道彼此的位置、或在继续执行前不需要等待接收程序接收此消息。在分布式计算环境中,为... 阅读全文

posted @ 2015-11-08 10:40 tneduts 阅读(248) 评论(0) 推荐(0) 编辑

Python 基本类型转换

摘要: python 有关字符串处理有哪些好用的方法?reverse len 字符串分割,合并?截取?查找? find index join split unicode字符串的表示 """在字符串中的使用? 字符数组 unicode_string = u'this is a unicode string' 字符串的正则表达式查找替换? import re py... 阅读全文

posted @ 2015-11-08 10:19 tneduts 阅读(245) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 ··· 10 下一页

导航