随笔分类 - 大数据系列

摘要: 一、datanode添加新节点 1 在dfs.include文件中包含新节点名称,该文件在名称节点的本地目录下 [白名单] [s201:/soft/hadoop/etc/hadoop/dfs.include] 2 在hdfs-site.xml文件中添加属性 3 在nn上刷新节点 Hdfs dfsad阅读全文
posted @ 2017-12-15 09:40 霓裳梦竹 阅读(428) | 评论 (1) 编辑
摘要: 一、什么是安全模式 安全模式时HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,当整个系统达到安全标准时,HDFS自动阅读全文
posted @ 2017-12-13 14:15 霓裳梦竹 阅读(113) | 评论 (0) 编辑
摘要: package com.slp.hdfs; import org.apache.commons.io.output.ByteArrayOutputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop....阅读全文
posted @ 2017-12-12 17:10 霓裳梦竹 阅读(280) | 评论 (0) 编辑
摘要: 使用hadoop上传文件 hdfs dfs -put XXX 查看hadoop是否正常,进程是否完整 查看磁盘使用情况 从这里可以看出操盘的空间都是空的 原因可能是hadoop格式化的时候出现了问题 然后将logs和tmp中的文件全部删除,重新格式化也没成功,后来看到clusterId不一致的问题 阅读全文
posted @ 2017-12-08 11:15 霓裳梦竹 阅读(1850) | 评论 (0) 编辑
摘要: 前言 搭建完hadoop集群之后在windows环境下搭建java项目进行测试 操作hdfs中的文件 版本一 以上运行测试的时候会报错,原因是URL无法识别hdfs协议。 版本二、 这个时候就可以正确的打印出hdfs文件copyFromLocal的文件内容。 附:可以将hadoop解压文件下etc中阅读全文
posted @ 2017-11-30 17:50 霓裳梦竹 阅读(324) | 评论 (0) 编辑
摘要: appendToFile cat checksum chgrp chmod chown copyFromLocal copyToLocal count cp createSnapshot deleteSnapshot df du dus expunge find get getfacl getfat阅读全文
posted @ 2017-08-11 09:40 霓裳梦竹 阅读(210) | 评论 (0) 编辑
摘要: Hadoop Commands Guide Overview Shell Options Generic Options User Commands archive checknative classpath credential distch distcp dtutil fs gridmix ja阅读全文
posted @ 2017-08-10 09:39 霓裳梦竹 阅读(132) | 评论 (0) 编辑
摘要: Hadoop Cluster Setup Purpose Prerequisites Installation Configuring Hadoop in Non-Secure Mode Configuring Environment of Hadoop Daemons Configuring th阅读全文
posted @ 2017-08-08 09:31 霓裳梦竹 阅读(249) | 评论 (0) 编辑
摘要: Hadoop: Setting up a Single Node Cluster. HADOOP:建立单节点集群 Purpose Prerequisites Supported Platforms Required Software Installing Software Download Prep阅读全文
posted @ 2017-08-07 11:52 霓裳梦竹 阅读(78) | 评论 (0) 编辑
摘要: 一、什么是Hive Hive是建立在Hadoop基础常的数据仓库基础架构,,它提供了一系列的工具,可以用了进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的按规模数据的机制。Hive定义了简单的类SQL查询语句,称为HQL。它允许熟悉SQL的用户查询数据、同时。这个语阅读全文
posted @ 2017-08-07 00:18 霓裳梦竹 阅读(256) | 评论 (0) 编辑
摘要: GettingStarted 开始 GettingStarted 开始 Created by Confluence Administrator, last modified by Lefty Leverenz on Jun 15, 2017 本文档由Confluence管理员创建,2017年6月15阅读全文
posted @ 2017-08-03 15:39 霓裳梦竹 阅读(86) | 评论 (0) 编辑
摘要: 1、执行hive之后执行别的命令出现如下 java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 找了各种解决办法有人说是要重启me阅读全文
posted @ 2017-08-03 11:50 霓裳梦竹 阅读(80) | 评论 (0) 编辑
摘要: javax.jdo.option.ConnectionURL jdbc:mysql://localhost/metastore?createDatabaseIfNotExist=true javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver javax.jdo.option.Conne...阅读全文
posted @ 2017-08-03 11:22 霓裳梦竹 阅读(20) | 评论 (0) 编辑
摘要: 一、安装好jdk和hadoop 二、下载apache-hive https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.0/ 三、解压到安装目录并配置环境变量 tar -zxvf apache-hive-2.3.0 #解压 vi /etc/阅读全文
posted @ 2017-08-03 11:05 霓裳梦竹 阅读(30) | 评论 (0) 编辑
摘要: MapReduce是hadoop中的一个计算框架,用来处理大数据。所谓大数据处理,即以价值为导向,对大数据加工,挖掘和优化等各种处理。 MapReduce擅长处理大数据,这是由MapReduce的设计思想决定的“分而治之”。 1)Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理阅读全文
posted @ 2017-08-02 15:56 霓裳梦竹 阅读(35) | 评论 (0) 编辑
摘要: 为键值对提供持久的数据结构 1、txt纯文本格式,若干行记录 2、SequenceFile key-value格式,若干行记录,类似于map 3、编写写入和读取的文件 测试方法的输出为: 1=tom12=tom23=tom34=tom4 4、查看文件阅读全文
posted @ 2017-08-01 15:49 霓裳梦竹 阅读(27) | 评论 (0) 编辑
摘要: 一、配置文件 1.core-site.xml 2、hdfs-site.xml 3、yarn-site.xml 4、slaves 二、建立本地连接 三、创建MapReduceProject 1、File -- new - Other --MapReduceProject 2、建立测试文件 3、run 阅读全文
posted @ 2017-07-31 18:33 霓裳梦竹 阅读(27) | 评论 (0) 编辑
摘要: 1、格式化系统 hadoop namenode -format 2、put 上传 () hadoop fs -put //hdfs dfs -put完全一样 hdfs dfs(和hadoop fs等价) eg:hadoop fs -mkdir -p /user/hadoop/data hdfs df阅读全文
posted @ 2017-07-31 10:23 霓裳梦竹 阅读(36) | 评论 (0) 编辑
摘要: 一、start-all.sh hadoop安装目录/home/hadoop/hadoop-2.8.0/ libexec/hadoop-config.sh 设置变量 sbin/start-dfs.sh 启动hdfs sbin/start-yarn.sh 启动yarn 二、sbin/start-dfs.阅读全文
posted @ 2017-07-31 10:01 霓裳梦竹 阅读(89) | 评论 (1) 编辑
摘要: 低版本的hadoop下MapReduce处理流程 1、首先用户程序(JobClient)提交了一个job,job的信息会发送到Job Tracker,Job Tracker是Map-reduce框架的中心,他需要与集群中的机器定时通信heartbeat,需要管理哪些程序应该跑在哪些机器上,需要管理所阅读全文
posted @ 2017-07-28 14:16 霓裳梦竹 阅读(6589) | 评论 (2) 编辑
摘要: 一、项目采用maven构建,如下为pom.xml中引入的jar包 二、输入文件 三、代码实现 四、输出结果 五、reduce输出内容阅读全文
posted @ 2017-07-19 14:01 霓裳梦竹 阅读(25) | 评论 (0) 编辑
摘要: 一、下载Eclipse并安装 二、下载exlipse的hadoop plugin 三、打开Map Reduce视图 Window --> Perspective --> Open perspective 四、编辑Hadoop Location 五、查看是否连接成功 六、上传文件或文件夹测试是否成功 阅读全文
posted @ 2017-07-19 09:47 霓裳梦竹 阅读(25) | 评论 (0) 编辑
摘要: 修改namenode上的hdfs-site.xml 启动之后各个节点上进程:阅读全文
posted @ 2017-07-19 09:28 霓裳梦竹 阅读(23) | 评论 (0) 编辑
摘要: 文件内容例如: 小明 小李 小花 小白阅读全文
posted @ 2017-07-18 23:30 霓裳梦竹 阅读(32) | 评论 (0) 编辑
摘要: 一、引入 hadoop的分布式计算框架(MapReduce是离线计算框架) 二、MapReduce设计理念 移动计算,而不是移动数据。 Input HDFS先进行处理切成数据块(split) map sort reduce 输出数据(output HDFS) 三、示例 Mapping是根据我们书写的阅读全文
posted @ 2017-07-16 23:28 霓裳梦竹 阅读(171) | 评论 (0) 编辑
摘要: HDFS文件权限 1、与linux文件权限类型 r:read w:write x:execute权限x对于文件忽略,对于文件夹表示是否允许访问其内容 2、如果linux系统用户sanglp使用hadoop命令创建一个文件,那么这个文件在HDFS中owner就是sanglp 3、HDFS的权限目的:阻阅读全文
posted @ 2017-07-15 18:37 霓裳梦竹 阅读(97) | 评论 (0) 编辑
摘要: DataNode的写操作流程 DataNode的写操作流程可以分为两部分,第一部分是写操作之前的准备工作,包括与NameNode的通信等;第二部分是真正的写操作。 一、准备工作 1、首先,HDFS client会去询问NameNoed,看哪些DataNode可以存储Block A,file.txt文阅读全文
posted @ 2017-07-11 23:52 霓裳梦竹 阅读(809) | 评论 (0) 编辑
摘要: 一、Ambari简介 The Apache Ambari project is aimed at making Hadoop management simpler by developing software for provisioning, managing, and monitoring Ap阅读全文
posted @ 2017-06-23 17:19 霓裳梦竹 阅读(41) | 评论 (0) 编辑
摘要: 一、添加用户和用户组 adduser hadoop 将hadoop用户添加进sudo用户组 sudo usermod -G sudo hadoop 或者 visudo 二、安装jdk 具体操作参考:centos安装JDK 三、配置ssh免密登陆 具体才做可见:【linux系列】配置免密登陆 四、下载阅读全文
posted @ 2017-06-22 13:35 霓裳梦竹 阅读(62) | 评论 (0) 编辑
摘要: 一、hadoop的配置文件分类 1、只读类型的默认文件 core-default.xml hdfs-default.xml mapred-default.xml mapred-queues.xml 2、定位设置 core-site.xml hdfs-site.xml mapred-site.xml 阅读全文
posted @ 2017-06-21 14:00 霓裳梦竹 阅读(95) | 评论 (1) 编辑
摘要: 为hadoop集群在linux环境下配置ssh免密登录阅读全文
posted @ 2017-06-19 17:36 霓裳梦竹 阅读(1210) | 评论 (0) 编辑
摘要: 一、安装JDK配置环境变量 已经安装略过 二、安装eclipse 已经安装略过 三、安装Ant 1、下载http://ant.apache.org/bindownload.cgi 2、解压 3、配置ANT_HOME环境变量 4、测试ant是否安装成功 四、安装hadoop插件 1、hadoop安装已阅读全文
posted @ 2017-06-15 16:06 霓裳梦竹 阅读(794) | 评论 (0) 编辑
摘要: 一、下载安装包 解压安装包并创建data,name,tmp文件夹 二、修改配置文件 1、core-site.xml 2、mapred-site.xml (修改原来的mapred-site.xml.template) 3、hdfs-site.xml 4、yarn-site.xml 四、替换原下载安装包阅读全文
posted @ 2017-06-15 12:53 霓裳梦竹 阅读(1087) | 评论 (1) 编辑
摘要: 为了方便采用了Cygwin模拟linux环境的方法 一、安装JDK以及下载hadoop hadoop官网下载hadoop http://hadoop.apache.org/releases.html 。 二、安装Cygwin 1、http://www.cygwin.com/ 根据操作系统的需要下载3阅读全文
posted @ 2017-06-14 16:05 霓裳梦竹 阅读(3583) | 评论 (0) 编辑
摘要: 一、HDFS介绍 HDFS为了做到可靠性(reliability)创建了多分数据块(data blocks)的复制(replicas),并将它们放置在服务集群的计算节点中(compute nodes),MapReduce就可以在他么所在的节点上处理这些数据了。 二、HDFS运行机制 一个名字节点和多阅读全文
posted @ 2017-06-12 23:59 霓裳梦竹 阅读(52) | 评论 (0) 编辑
摘要: 一、 Hadoop的来源 Hadoop是Google的集群系统的开源实现。 --Google集群系统:GFS(Google File System)、MapReduce、BigTable. --Hadoop主要由HDFS(Hadoop Distributed File System Hadoop分布阅读全文
posted @ 2017-06-12 23:23 霓裳梦竹 阅读(64) | 评论 (0) 编辑