hadoop - 随笔分类 - 出发一路向北

hadoop动态增删节点

摘要：增加机器： 1、将新增加的机器配置好(jdk/hosts/hadoop里的配置文件) 2、将新增加的机器主机名/IP添加到Master机器中的$HADOOP_HOME$/conf/slaves文件中 3、在新增加的机器中输入以下命令引用$ cd path/to/hadoop $ bin/hadoop-daemon.sh start datanode $ bin/hadoop-daemon.sh start tasktracker 4、在Master机器上输入以下命令引用$bin/hadoop balancer 减少机器： 1、在$HADOOP_HOME$/conf/中建立文本文件... 阅读全文

posted @ 2012-11-21 16:37 出发一路向北阅读(251) 评论(0) 推荐(0)

创建hadoop账号

摘要：最初安装hadoop集群时，使用了root账号，后来发现还是有一些安全隐患的，所以今天就把线上的集群统一配置到了hadoop账号下，具体步骤如下：１：创建hadoop账号useradd hadoop２：ssh无密码登陆su hadoopssh-keygen -t rsacp id_rsa.pub authorized_key(复制到所有datanode，并测试ssh登陆)３：配置hadoop把原先的/usr/local/hadoop复制到/home/hadoop下，并修改配置文件中hadoop_home相关的地址。４：修改文件权限修改dfs.name.dir,dfs.data.dir,mapr 阅读全文

posted @ 2012-11-20 23:31 出发一路向北阅读(730) 评论(0) 推荐(0)

在非hadoop集群上运行hadoop命令

摘要：在非hadoop集群上运行hadoop命令的方法：１：通过java调用hadoop提供的API接口。２：把hadoop的部署到需要调用hadoop命令的机器上。注：第二种方法，需配置正确hadoop-env.sh中的$JAVA_HOME变量和在/etc/hosts中添加namenode的映射即可。 hive，hbase，mahout方法类似；hive和hbase提供了thrift接口。阅读全文

posted @ 2012-11-19 17:59 出发一路向北阅读(238) 评论(0) 推荐(0)

修改hadoop备份数

摘要：１：hadoop中备份数设置：(hdfs-site.xml)<property> <name>dfs.replication</name> <value>3</value></property>２：hadoop中备份数修改：hadoop dfs -setrep [-R] <path> 如果有-R将修改子目录文件的性质。hadoop dfs -setrep -w 3 -R /user/hadoop/dir1 就是把目录下所有文件备份系数设置为3.３：hadoop中查看当前某个文件的备份数：hadoop dfs - 阅读全文

posted @ 2012-11-16 16:18 出发一路向北阅读(2345) 评论(0) 推荐(0)

hive对lzo文件并行处理的关键点

摘要：1,确保创建索引$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog2 如果在hive中新建外部表的语句为CREATE EXTERNAL TABLE foo ( columnA string, columnB string ) PARTITIONED BY (date string) ROW FORMAT DELIMITED F... 阅读全文

posted @ 2012-11-15 18:11 出发一路向北阅读(837) 评论(0) 推荐(0)

hadoop打开append功能

摘要：打开append功能需要修改hdfs-site的参数: <property> <name>dfs.support.append</name> <value>true</value> </property>修改该参数后,整个hadoop集群需要重新启动还有个另外的参数需要修改的,就是datanode支持的连接的个数: <property> <name>dfs.datanode.max.xcievers</name> <value>4096</value> </ 阅读全文

posted @ 2012-11-14 15:06 出发一路向北阅读(352) 评论(0) 推荐(0)

hadoop默认和常用配置

摘要：获取默认配置配置hadoop，主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件，默认下来，这些配置文件都是空的，所以很难知道这些配置文件有哪些配置可以生效，上网找的配置可能因为各个hadoop版本不同，导致无法生效。浏览更多的配置，有两个方法:1.选择相应版本的hadoop,下载解压后，搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key，配置hadoop集群。2.浏览apache官网,三个配置文件链接如下: ht 阅读全文

posted @ 2012-11-14 15:03 出发一路向北阅读(281) 评论(0) 推荐(0)

hadoop升级可能出现的问题

摘要：一：hadoop从0.20.2升级到1.0.4时，会提示“Warning:$HADOOP_HOME is deprated”。这个主要是hadoop-config.sh脚本引起的，只要把hadoop-env.sh里的HADOOP_HOME变量去掉；把/etc/profile里的HADOOP_HOME改为HADOOP_INSTALL即可。注意同步到所有datanode.二：升级时，请注意使用start-dfs.sh upgrade命令，通知hadoop升级。详情请查看这里：http://www.cnblogs.com/cloudma/articles/hadoop-upgrade.html三：h 阅读全文

posted @ 2012-11-13 23:16 出发一路向北阅读(209) 评论(0) 推荐(0)

hadoop的LZO压缩算法配置详解

摘要：操作系统：CentOS 5.4(64位)，Hadoop版本：hadoop-0.20.2安装lzo所需要软件包：gcc、ant、lzo、lzo编码/解码器，另外，还需要lzo-devel依赖配置lzo的文件：core-site.xml、mapred-site.xml1:安装jdk并配置环境变量(64位)jdk安装这里就不详细介绍了。export JAVA_HOME=/usr/java/jdk1.6.0_21export PATH=$PATH:$JAVA_HOME/bin2.在集群的所有节点上安装Lzo库，下载地址(http://www.oberhumer.com/opensource/lzo/d 阅读全文

posted @ 2012-11-07 19:16 出发一路向北阅读(1575) 评论(0) 推荐(0)

hadoop生态图谱

摘要：MapReduce：分布式编程处理模型HDFS：分布式文件系统Zookeeper：分布式集群协商服务软件HBASE：类似BigTable，基于列存储非结构化数据Hive：数据仓库Pig：创建mapreduce程序的高级脚本语言Flume/Chukwa：日志收集系统Sqoop：关系数据库向HDFS的转移工具Avro：数据序列化系统AvatarNode：单namenode的备份解决方案Cassandra：分布式NoSQL数据库Hama基于块同步并行(Bulk sync parall)的科学计算、图形处理等复杂计算工具Mashout：机器学习Ganglia/Hue：监控Nagios告警Scribe日阅读全文

posted @ 2012-11-06 23:14 出发一路向北阅读(503) 评论(0) 推荐(0)

map-reduce流程图

摘要：map、shuffle、reduce包含的流程如下：map:split->map->buffer in memorypartition:partition/sort/spillshuffle:copy->sort->mergereduce:shuffle result->reduce->outputpartition与shuffle区别：partition 是指把同一个map中的数据分给不同的reduceshuffle是指在分区过程中把相同的key分到同一个reducesort与combine次数：map端两次sort；reduce端一次sort；每次sor 阅读全文

posted @ 2012-11-05 22:09 出发一路向北阅读(487) 评论(0) 推荐(0)

hadoop回收站设置

摘要：hadoop回收站设置：hadoop 的回收站trash功能默认是关闭的。开启方式为：在core-site.xml中设置： <property> <name>fs.trash.interval</name> <value>1440</value> <description>Number of minutes between trash checkpoints. If zero, the trash feature is disabled. </description> </property>fs.t 阅读全文

posted @ 2012-11-04 12:19 出发一路向北阅读(477) 评论(0) 推荐(0)

出发一路向北

随笔分类 - hadoop

公告