随笔分类 - Hadoop
摘要:生成密钥ssh-keygen -t rsacp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys来自为知笔记(Wiz)
阅读全文
摘要:在这里我们选用4台机器进行示范,各台机器的职责如下表格所示hadoop0hadoop1hadoop2hadoop3是NameNode吗?是,属集群cluster1是,属集群cluster1是,属集群cluster2是,属集群cluster2是DataNode吗?否是是是是JournalNode吗?...
阅读全文
摘要:序列化1)什么是序列化 将结构化对象转换成字节流以便于进行网络传输或写入持久存储的过程。2)什么是反序列化 将字节流转化为一系列结构化对象的过程。序列化的用途 1)作为一种持久化格式 2)作为一种通信的数据格式 3)作为一种数据拷贝、克隆机制序列化的特征: 1)紧凑:Hadoop中最稀缺的资源是宽带,所以紧凑的序列化机制可以充分的利用宽带。 2)快速:通信...
阅读全文
摘要:hadoop2课程1.体系结构、源码编译 HDFS+MapReduce。共同点都是都是分布式的,主从关系结构。 HDFS是暴扣主节点NameNode,只有一个;还有从节点DataNode,有很多个。 NameNode含有我们用户存储的文件的元数据信息。把这些数据存放在硬盘上,但是在运行时是加载在内存中的。 缺点: (1)当我们的NameNode无法在内...
阅读全文
摘要:分布式系统原理一、分布式系统基础重要要点:对外提供无状态节点,内部实现具体有状态或者无状态节点逻辑,节点即可以是提供服务,也可以是存储数据。拜占庭问题,在分布式系统中的使用,目的是保证服务可用,而不是找出错误的节点,如果。异常常见情况,机器宕机、网络异常、消息丢失、消息乱序、数据错误、不可靠的TCP...
阅读全文
摘要:1.JVM内存模型2.JVM类加载机制 3.HDFS架构图 4.HDFS读写数据 5.Secondary NameNode 的意义所在6.MapReduce架构7.MapReduce过程7...
阅读全文
摘要:JNI基础概念 Java Native Interface Java本地调用 主要是为了和C/C++交互 JNI的副作用一旦使用JNI,JAVA程序就丧失了JAVA平台的两个优点:1、程序不再跨平台。要想跨平台,必须在不同的系统环境下重新编译本地语言部分。2、程序不再是绝对安全的,本地代码的不当使用可能导致整个程序崩溃。一个通用规则是,你应该让本地方法集中在少数几个类当...
阅读全文
摘要:1.Hadoop启动中遇到的问题以及解决办法:(1)搭建HDFS集群的时候,NameNode和DataNode这两个进程会挂掉?查看logs,查看相关的异常信息a.如果是namenode没有正常启动,原因在启动之前没有格式化,我们需要formatb.如果data没有启动,原因是namespaceID...
阅读全文
摘要:1.flume是分布式的日志收集系统,把收集来的数据传送到目的地去。2.flume里面有个核心概念,叫做agent。agent是一个java进程,运行在日志收集节点。3.agent里面包含3个核心组件:source、channel、sink。3.1 source组件是专用于收集日志的,可以处理各种类...
阅读全文
摘要:1)HDFS读过程DistributedFileSystem -> FSDataInputStream -> DFSClient.open(RPC通信机制) -> NN.openHDFS写过程DIstributedFileSystem -> FSDataOutputStream -> DFSClie...
阅读全文
摘要:转自:http://www.superwu.cn/2013/08/23/548/在hadoop集群的时候,集群的运行会进入到安全模式(safeMode)下。在安全模式下运行一段时间后,自动退出。那么,系统在安全模式下干什么了?当集群启动的时候,会首先进入到安全模式。系统在安全模式下,会检查数据块的完...
阅读全文
摘要:1.Hadoop配置文件的形式 Hadoop的配置文件是以XML的形式,跟元素是configuration,一般只包含子元素property。每一个property元素就是一个配置项,配置文件不支持分层或分级。每个配置项一般包括配置属性的名称name、值value和一个关于配置项的描述descri...
阅读全文
摘要:1 /*********************************************** 2 这一百万数据只是在个人电脑上模拟,实际数据可能达到一亿。本人没有测试过 3 这一百万数据的文件存储格式如下: 4 4566 5 1321634 6 132132 7 165446...
阅读全文
摘要:1 /** 2 * 数据格式文件为: 3 * 4 4 * 7 5 * 5 6 * 即每个数字占一行 7 */ 8 import java.io.IOException; 9 import java.net.URI;10 11 import org.apache.hadoop...
阅读全文
摘要:1.hadoop的伪分布安装1.1 设置ip地址 执行命令 service network restart 验证: ifconfig1.2 关闭防火墙 执行命令 service iptables stop 验证: service iptables status1.3 关闭防火墙的自动运行 执行命令...
阅读全文
摘要:linux搭建hadoop环境1、安装JDK (1)下载安装JDK:确保计算机联网之后命令行输入下面命令安装JDK sudo apt-get install sun-java6-jdk (2)配置计算机Java环境:打开/etc/profile,在文件最后输入下面内容 e...
阅读全文

浙公网安备 33010602011771号