随笔分类 -  hadoop

分布式存储与计算
摘要:增加机器: 1、将新增加的机器配置好(jdk/hosts/hadoop里的配置文件) 2、将新增加的机器主机名/IP添加到Master机器中的$HADOOP_HOME$/conf/slaves文件中 3、在新增加的机器中输入以下命令 引用$ cd path/to/hadoop $ bin/hadoop-daemon.sh start datanode $ bin/hadoop-daemon.sh start tasktracker 4、在Master机器上输入以下命令 引用$bin/hadoop balancer 减少机器: 1、在$HADOOP_HOME$/conf/中建立文本文件... 阅读全文
posted @ 2012-11-21 16:37 出发一路向北 阅读(250) 评论(0) 推荐(0)
摘要:最初安装hadoop集群时,使用了root账号,后来发现还是有一些安全隐患的,所以今天就把线上的集群统一配置到了hadoop账号下,具体步骤如下:1:创建hadoop账号useradd hadoop2:ssh无密码登陆su hadoopssh-keygen -t rsacp id_rsa.pub authorized_key(复制到所有datanode,并测试ssh登陆)3:配置hadoop把原先的/usr/local/hadoop复制到/home/hadoop下,并修改配置文件中hadoop_home相关的地址。4:修改文件权限修改dfs.name.dir,dfs.data.dir,mapr 阅读全文
posted @ 2012-11-20 23:31 出发一路向北 阅读(728) 评论(0) 推荐(0)
摘要:在非hadoop集群上运行hadoop命令的方法:1:通过java调用hadoop提供的API接口。2:把hadoop的部署到需要调用hadoop命令的机器上。注:第二种方法,需配置正确hadoop-env.sh中的$JAVA_HOME变量和在/etc/hosts中添加namenode的映射即可。 hive,hbase,mahout方法类似;hive和hbase提供了thrift接口。 阅读全文
posted @ 2012-11-19 17:59 出发一路向北 阅读(238) 评论(0) 推荐(0)
摘要:1:hadoop中备份数设置:(hdfs-site.xml)<property> <name>dfs.replication</name> <value>3</value></property>2:hadoop中备份数修改:hadoop dfs -setrep [-R] <path> 如果有-R将修改子目录文件的性质。hadoop dfs -setrep -w 3 -R /user/hadoop/dir1 就是把目录下所有文件备份系数设置为3.3:hadoop中查看当前某个文件的备份数:hadoop dfs - 阅读全文
posted @ 2012-11-16 16:18 出发一路向北 阅读(2342) 评论(0) 推荐(0)
摘要:1,确保创建索引$HADOOP_HOME/bin/hadoopjar$HADOOP_HOME/lib/hadoop-lzo-0.4.10.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/flog2 如果在hive中新建外部表的语句为CREATE EXTERNAL TABLE foo ( columnA string, columnB string ) PARTITIONED BY (date string) ROW FORMAT DELIMITED F... 阅读全文
posted @ 2012-11-15 18:11 出发一路向北 阅读(835) 评论(0) 推荐(0)
摘要:打开append功能需要修改hdfs-site的参数: <property> <name>dfs.support.append</name> <value>true</value> </property>修改该参数后,整个hadoop集群需要重新启动还有个另外的参数需要修改的,就是datanode支持的连接的个数: <property> <name>dfs.datanode.max.xcievers</name> <value>4096</value> </ 阅读全文
posted @ 2012-11-14 15:06 出发一路向北 阅读(352) 评论(0) 推荐(0)
摘要:获取默认配置配置hadoop,主要是配置core-site.xml,hdfs-site.xml,mapred-site.xml三个配置文件,默认下来,这些配置文件都是空的,所以很难知道这些配置文件有哪些配置可以生效,上网找的配置可能因为各个hadoop版本不同,导致无法生效。浏览更多的配置,有两个方法:1.选择相应版本的hadoop,下载解压后,搜索*.xml,找到core-default.xml,hdfs-default.xml,mapred-default.xml,这些就是默认配置,可以参考这些配置的说明和key,配置hadoop集群。2.浏览apache官网,三个配置文件链接如下: ht 阅读全文
posted @ 2012-11-14 15:03 出发一路向北 阅读(280) 评论(0) 推荐(0)
摘要:一:hadoop从0.20.2升级到1.0.4时,会提示“Warning:$HADOOP_HOME is deprated”。这个主要是hadoop-config.sh脚本引起的,只要把hadoop-env.sh里的HADOOP_HOME变量去掉;把/etc/profile里的HADOOP_HOME改为HADOOP_INSTALL即可。注意同步到所有datanode.二:升级时,请注意使用start-dfs.sh upgrade命令,通知hadoop升级。详情请查看这里:http://www.cnblogs.com/cloudma/articles/hadoop-upgrade.html三:h 阅读全文
posted @ 2012-11-13 23:16 出发一路向北 阅读(207) 评论(0) 推荐(0)
摘要:操作系统:CentOS 5.4(64位),Hadoop版本:hadoop-0.20.2安装lzo所需要软件包:gcc、ant、lzo、lzo编码/解码器,另外,还需要lzo-devel依赖配置lzo的文件:core-site.xml、mapred-site.xml1:安装jdk并配置环境变量(64位)jdk安装这里就不详细介绍了。export JAVA_HOME=/usr/java/jdk1.6.0_21export PATH=$PATH:$JAVA_HOME/bin2.在集群的所有节点上安装Lzo库,下载地址(http://www.oberhumer.com/opensource/lzo/d 阅读全文
posted @ 2012-11-07 19:16 出发一路向北 阅读(1572) 评论(0) 推荐(0)
摘要:MapReduce:分布式编程处理模型HDFS:分布式文件系统Zookeeper:分布式集群协商服务软件HBASE:类似BigTable,基于列存储非结构化数据Hive:数据仓库Pig:创建mapreduce程序的高级脚本语言Flume/Chukwa:日志收集系统Sqoop:关系数据库向HDFS的转移工具Avro:数据序列化系统AvatarNode:单namenode的备份解决方案Cassandra:分布式NoSQL数据库Hama基于块同步并行(Bulk sync parall)的科学计算、图形处理等复杂计算工具Mashout:机器学习Ganglia/Hue:监控Nagios告警Scribe日 阅读全文
posted @ 2012-11-06 23:14 出发一路向北 阅读(503) 评论(0) 推荐(0)
摘要:map、shuffle、reduce包含的流程如下:map:split->map->buffer in memorypartition:partition/sort/spillshuffle:copy->sort->mergereduce:shuffle result->reduce->outputpartition与shuffle区别:partition 是指把同一个map中的数据分给不同的reduceshuffle是指在分区过程中把相同的key分到同一个reducesort与combine次数:map端两次sort;reduce端一次sort;每次sor 阅读全文
posted @ 2012-11-05 22:09 出发一路向北 阅读(481) 评论(0) 推荐(0)
摘要:hadoop回收站设置:hadoop 的回收站trash功能默认是关闭的。开启方式为:在core-site.xml中设置: <property> <name>fs.trash.interval</name> <value>1440</value> <description>Number of minutes between trash checkpoints. If zero, the trash feature is disabled. </description> </property>fs.t 阅读全文
posted @ 2012-11-04 12:19 出发一路向北 阅读(473) 评论(0) 推荐(0)