Hadoop - 随笔分类 - 晋心

Phoenix与Hive学习资料

摘要：1.Phoenix二级索引机制 http://www.tuicool.com/articles/FfMz6bq http://itindex.net/detail/50681-phoenix-sql-hbase/ Phoenix SQL Grammer http://forcedotcom.gith 阅读全文

posted @ 2016-05-30 18:41 晋心阅读(2132) 评论(0) 推荐(0)

Ambari部署HDP：HBase Master启动后自动消失

摘要：这是第一次出勤部署产品。遇到不可控问题，解决，写个心得。记录一下吧^^ 在排查问题的过程中，学到不少知识。（1）centos系统盘和数据盘分开，装操作系统的人没有将IT的空间分配出来，所以分区，自动挂载#lvmdiskscan 查看哪些设备成为了物理卷.检测硬盘和分区中的逻辑巻管理信息只有/dev... 阅读全文

posted @ 2015-04-24 20:02 晋心阅读(2178) 评论(0) 推荐(0)

Hdfs读取文件到本地总结

摘要：总结了一下三个方法：hdfs自带按字节复制按行复制（在java io里还有字符复制，暂且不提）因为hdfs自带的，不知道为什么有些场合不能用，每次能下载的个数还不一定，所以就考虑自己按照java的方式来复制，就出现第2、3种方法。有时间好好研究一下IO，比如针对特殊文件，文件复制会出现大小不一... 阅读全文

posted @ 2014-12-04 16:56 晋心阅读(6792) 评论(0) 推荐(0)

命令行下编译Wordcount

摘要：1. 编辑WordCount.java文件，在下载的hadoop安装包里有WordCount的例子http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-2.2.0/hadoop-2.2.0.tar.gz2. 把WordCount编译成一个jar... 阅读全文

posted @ 2014-11-22 15:31 晋心阅读(542) 评论(0) 推荐(0)

hadoop性能调优

摘要：1.平衡磁盘利用率hadoop balancer -Threshold 20或者sh $HADOOP_HOME/bin/start-balancer.sh –t 20%参数20是比例参数，表示20%，也就是平各个DataNode直接磁盘使用率偏差在20%以内。threshold 默认设置：10，参数... 阅读全文

posted @ 2014-10-08 17:24 晋心阅读(282) 评论(0) 推荐(0)

datanode启动不起来的各种原因

摘要：一般在数据节点的log日志信息里能找到导致启动不起来的原因。1.Namenode和Datanode的NamenodeID不一致描述：一般在集群多次重新格式化HDFS之后，或者刚安装时会碰到。日志信息如下： java.io.IOException: Incompatible namespac... 阅读全文

posted @ 2014-09-08 21:04 晋心阅读(11514) 评论(0) 推荐(0)

HDP2.0.6+hadoop2.2.0+eclipse（windows和linux下）调试环境搭建

摘要：花了好几天，搭建好windows和linux下连接HDP集群的调试环境，在此记录一下 hadoop2.2.0的版本比hadoop0.x和hadoop1.x结构变化很大，没有eclipse-hadoop插件支持，在网上找了好久才找到，自己编译的比较麻烦，而且不成功，还好最后找到了。环境及配置：1.e... 阅读全文

posted @ 2014-09-08 18:12 晋心阅读(1229) 评论(1) 推荐(0)

eclipse hadoop1.2.0配置及wordcount运行

摘要："error: failure to login"问题http://www.cnblogs.com/xia520pi/archive/2012/05/20/2510723.htmlDFS Locations 本人这次的编译环境是linuxmint15 64bit，与上文的编译环境win2003不同了... 阅读全文

posted @ 2014-07-11 16:37 晋心阅读(318) 评论(0) 推荐(0)

eclipse调试hadoop2.2.0源码笔记

摘要：在hadoop1.x版本时使用的是在Windows下编译Eclipse插件，远程调试集群。换成2.2.0，没有eclipse-plugin文件。 hadoop2.2.0“远程调试集群”，是指调试NameNode/DataNode，JobTracker/Tasktracker，ResourceMan... 阅读全文

posted @ 2014-07-11 16:36 晋心阅读(217) 评论(0) 推荐(0)

ubuntu配置

摘要：首先就是Ubuntu的更新源问题，需要更改，否则更新不了。其次就是Securecrt的远程登陆问题，windows主机和ubuntu虚拟机如果能通信，要求在同一网段上，而ubuntu是动态加载，需要手动更改成二者在同一网段上。网上好多更改网址的方法，经过验证，以下的方法是最好的:1. 配置静态ip地... 阅读全文

posted @ 2014-07-11 16:36 晋心阅读(257) 评论(0) 推荐(0)

Hadoop编译方法

摘要：伪分布式：hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml 1.在hadoop官网下载hadoop的源码（同步跟踪最新源代码）mvn checkout http://svn.apache.org/repos/asf/hadoop/c... 阅读全文

posted @ 2014-07-11 16:35 晋心阅读(433) 评论(0) 推荐(0)

Hama安装及示例运行

摘要：Hama介绍Apache Hama是一个纯BSP（Bulk Synchronous Parallel）计算框架，模仿了Google的Pregel。用来处理大规模的科学计算，特别是矩阵和图计算。BSP概念由Valiant（2010图灵奖获得者）在1990年提出，具体参看wikipedia。Google... 阅读全文

posted @ 2014-07-11 16:32 晋心阅读(749) 评论(0) 推荐(0)

hadoop配置遇到问题的解决

摘要：1. ssh localhost: 不能登陆：将错误提示中的文件全部删除。原因：登陆过远程主机2. 问题：伪分布式datanode启动不了：在datanode的log日志文件出现以下错误提示： ERROR org.apache.hadoop.metrics2.impl.MetricsSystemI... 阅读全文

posted @ 2014-07-11 16:32 晋心阅读(5163) 评论(0) 推荐(0)

HADOOP集群配置

摘要：http://wenku.baidu.com/view/92cbe435eefdc8d376ee32eb.htmlhttp://www.infoq.com/cn/articles/hadoop-config-tipssh正确配置：http://wenku.baidu.com/view/dfccb8e... 阅读全文

posted @ 2014-07-11 16:30 晋心阅读(222) 评论(0) 推荐(0)

eclipse导入/编译hadoop源代码

摘要：1. 确保安装好JDK和eclipse 详细教程见： http://blog.csdn.net/kangdakangdaa/article/details/113649852. 安装 Subclipse（Eclipse 的 SVN 插件）用于从 Hadoop 获得源代码。我们使用 eclipse ... 阅读全文

posted @ 2014-07-11 16:30 晋心阅读(882) 评论(0) 推荐(0)

Eclipse远程调试hadoop源码

摘要：1. 修改对应调试端口之前的一篇blog里讲述了hadoop单机版调试的方法，那种调试只限于单机运行hadoop命令而已，对于运行整个hadoop环境而言是不可取的，因为hadoop会开启多个java进程，如果统一为一个端口启动，则启动会报错说端口被占用，同时对于jdwp agent而言也只能加载一... 阅读全文

posted @ 2014-03-25 21:42 晋心阅读(1127) 评论(0) 推荐(0)

hadoop源码调试

摘要：原文地址：http://www.cnblogs.com/end/archive/2011/04/26/2029497.html在使用hadoop的时候，可能遇到各种各样的问题，然而由于hadoop的运行机制比较复杂，因而出现了问题的时候比较难于发现问题。本文欲通过某种方式跟踪Hadoop的运行痕迹... 阅读全文

posted @ 2014-03-25 10:44 晋心阅读(1089) 评论(0) 推荐(0)

Hadoop分布式集群配置

摘要：硬件环境：安装一个Hadoop集群时，需要专门指定一个服务器作为主节点。三台虚拟机搭建的集群：（搭建集群时主机名不能一样，主机名在/etc/hostname修改）master机器：集群的主节点，驻留NameNode和JobTracker守护进程） dbrg1 192.168.0.102sla... 阅读全文

posted @ 2013-09-09 09:15 晋心阅读(247) 评论(0) 推荐(0)

Ubuntu上搭建Hadoop环境（单机模式+伪分布模式）

摘要：首先要了解一下Hadoop的运行模式：单机模式（standalone）单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时，Hadoop无法了解硬件安装环境，便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时，Hadoop会完全运行在本地。因为不需... 阅读全文

posted @ 2013-09-08 08:48 晋心阅读(343) 评论(0) 推荐(0)

晋心

随笔分类 - Hadoop

公告