随笔分类 - hadoop
摘要:(1)在使用eclipse远程调用hadoop时,抛出的异常,eclipse默认使用的是8020端口,而我的nameNode使用的9000,所以我将nameNode的端口设置为8020,问题解决
阅读全文
摘要:在windows 使用eclipse远程调用hadoop集群时抛出下面异常 这个问题 (1)你没有设置hadoop的环境变量,所以提示 null\bin\....... (2)你没有 winutils.exe winutils.exe的下载地址:https://github.com/srccodes
阅读全文
摘要:安装jdk1.7 http://www.cnblogs.com/zhangXingSheng/p/6228432.html 新增个域名 [root@node4 sysconfig]# more /etc/hosts 127.0.0.1 localhost 192.168.177.124 hadoop
阅读全文
摘要:注(要先安装jdk,最好jdk版本>=1.7) 安装jdk http://www.cnblogs.com/zhangXingSheng/p/6228432.html 给普通用户添加suto权限(使用root权限时无需密码) 1:切换成root用户 2:编辑 /etc/sudoers 文件(该文件的默
阅读全文
摘要:mapreduce 2 思想架构 mr2解决了mr1的jobTracker的单点颈瓶问题,这个问题会影响hadoop的扩展性,集群的可靠性,mr1中jobTracker负责集群作业的分发,管理,调度,同时还必须和集群中所有的节点保持通信,了解集群的资源情况和运行的状态,所以jobTracker就负担
阅读全文
摘要:文件系统的一致性和应用程序的方法有关,如果不调用sync(),就需要做好因为客户端异常或者服务端故障而缺失部分数据。缺失数据这对应用来说是不可接受的。所以需要在合适的地方调用sync(),比如在写入一定量的数据后,尽管sync()用来最大限度的减轻hdfs的负担,但是他仍有不可忽视的开销。所以你需要
阅读全文
摘要:hdfs的读: 首先客户端通过调用fileSystem对象中的open()函数读取他需要的的数据,fileSystem是DistributedFileSystem的一个实例, DistributedFileSystem会通过rpc协议和nameNode通信,来确定请求文件块所在的位置。对于每个返回的
阅读全文
摘要:我们常说的分布式系统,其实就是分布式软件系统,支持分布式处理的软件系统。他是在通信网络互联的多处理机体系结构上执行任务。 hadoop是分布式软件系统中文件系统层的软件,他实现了分布式文件系统和部分分布式数据库系统。hadoop中的分布式文件系统hdfs可以实现数据在计算机集群组成的云上,高效的存储
阅读全文