随笔分类 -  大数据系列

摘要:一、datanode添加新节点 1 在dfs.include文件中包含新节点名称,该文件在名称节点的本地目录下 [白名单] [s201:/soft/hadoop/etc/hadoop/dfs.include] 2 在hdfs-site.xml文件中添加属性 3 在nn上刷新节点 Hdfs dfsad 阅读全文
posted @ 2017-12-15 09:40 霓裳梦竹 阅读(1815) 评论(1) 推荐(2) 编辑
摘要:一、什么是安全模式 安全模式时HDFS所处的一种特殊状态,在这种状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求。在NameNode主节点启动时,HDFS首先进入安全模式,DataNode在启动的时候会向namenode汇报可用的block等状态,当整个系统达到安全标准时,HDFS自动 阅读全文
posted @ 2017-12-13 14:15 霓裳梦竹 阅读(994) 评论(0) 推荐(0) 编辑
摘要:package com.slp.hdfs; import org.apache.commons.io.output.ByteArrayOutputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.... 阅读全文
posted @ 2017-12-12 17:10 霓裳梦竹 阅读(1543) 评论(0) 推荐(0) 编辑
摘要:使用hadoop上传文件 hdfs dfs -put XXX 查看hadoop是否正常,进程是否完整 查看磁盘使用情况 从这里可以看出操盘的空间都是空的 原因可能是hadoop格式化的时候出现了问题 然后将logs和tmp中的文件全部删除,重新格式化也没成功,后来看到clusterId不一致的问题 阅读全文
posted @ 2017-12-08 11:15 霓裳梦竹 阅读(14034) 评论(0) 推荐(1) 编辑
摘要:前言 搭建完hadoop集群之后在windows环境下搭建java项目进行测试 操作hdfs中的文件 版本一 以上运行测试的时候会报错,原因是URL无法识别hdfs协议。 版本二、 这个时候就可以正确的打印出hdfs文件copyFromLocal的文件内容。 附:可以将hadoop解压文件下etc中 阅读全文
posted @ 2017-11-30 17:50 霓裳梦竹 阅读(1407) 评论(0) 推荐(0) 编辑
摘要:appendToFile cat checksum chgrp chmod chown copyFromLocal copyToLocal count cp createSnapshot deleteSnapshot df du dus expunge find get getfacl getfat 阅读全文
posted @ 2017-08-11 09:40 霓裳梦竹 阅读(1132) 评论(0) 推荐(0) 编辑
摘要:Hadoop Commands Guide Overview Shell Options Generic Options User Commands archive checknative classpath credential distch distcp dtutil fs gridmix ja 阅读全文
posted @ 2017-08-10 09:39 霓裳梦竹 阅读(1164) 评论(0) 推荐(0) 编辑
摘要:Hadoop Cluster Setup Purpose Prerequisites Installation Configuring Hadoop in Non-Secure Mode Configuring Environment of Hadoop Daemons Configuring th 阅读全文
posted @ 2017-08-08 09:31 霓裳梦竹 阅读(1663) 评论(0) 推荐(0) 编辑
摘要:Hadoop: Setting up a Single Node Cluster. HADOOP:建立单节点集群 Purpose Prerequisites Supported Platforms Required Software Installing Software Download Prep 阅读全文
posted @ 2017-08-07 11:52 霓裳梦竹 阅读(854) 评论(0) 推荐(0) 编辑
摘要:一、什么是Hive Hive是建立在Hadoop基础常的数据仓库基础架构,,它提供了一系列的工具,可以用了进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的按规模数据的机制。Hive定义了简单的类SQL查询语句,称为HQL。它允许熟悉SQL的用户查询数据、同时。这个语 阅读全文
posted @ 2017-08-07 00:18 霓裳梦竹 阅读(774) 评论(0) 推荐(0) 编辑
摘要:GettingStarted 开始 GettingStarted 开始 Created by Confluence Administrator, last modified by Lefty Leverenz on Jun 15, 2017 本文档由Confluence管理员创建,2017年6月15 阅读全文
posted @ 2017-08-03 15:39 霓裳梦竹 阅读(1212) 评论(0) 推荐(2) 编辑
摘要:1、执行hive之后执行别的命令出现如下 java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 找了各种解决办法有人说是要重启me 阅读全文
posted @ 2017-08-03 11:50 霓裳梦竹 阅读(324) 评论(0) 推荐(0) 编辑
摘要:javax.jdo.option.ConnectionURL jdbc:mysql://localhost/metastore?createDatabaseIfNotExist=true javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver javax.jdo.option.Conne... 阅读全文
posted @ 2017-08-03 11:22 霓裳梦竹 阅读(524) 评论(0) 推荐(0) 编辑
摘要:一、安装好jdk和hadoop 二、下载apache-hive https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.0/ 三、解压到安装目录并配置环境变量 tar -zxvf apache-hive-2.3.0 #解压 vi /etc/ 阅读全文
posted @ 2017-08-03 11:05 霓裳梦竹 阅读(335) 评论(0) 推荐(0) 编辑
摘要:MapReduce是hadoop中的一个计算框架,用来处理大数据。所谓大数据处理,即以价值为导向,对大数据加工,挖掘和优化等各种处理。 MapReduce擅长处理大数据,这是由MapReduce的设计思想决定的“分而治之”。 1)Mapper负责“分”,即把复杂的任务分解为若干个“简单的任务”来处理 阅读全文
posted @ 2017-08-02 15:56 霓裳梦竹 阅读(645) 评论(0) 推荐(0) 编辑
摘要:为键值对提供持久的数据结构 1、txt纯文本格式,若干行记录 2、SequenceFile key-value格式,若干行记录,类似于map 3、编写写入和读取的文件 测试方法的输出为: 1=tom12=tom23=tom34=tom4 4、查看文件 阅读全文
posted @ 2017-08-01 15:49 霓裳梦竹 阅读(421) 评论(0) 推荐(0) 编辑
摘要:一、配置文件 1.core-site.xml 2、hdfs-site.xml 3、yarn-site.xml 4、slaves 二、建立本地连接 三、创建MapReduceProject 1、File -- new - Other --MapReduceProject 2、建立测试文件 3、run 阅读全文
posted @ 2017-07-31 18:33 霓裳梦竹 阅读(451) 评论(0) 推荐(0) 编辑
摘要:1、格式化系统 hadoop namenode -format 2、put 上传 () hadoop fs -put //hdfs dfs -put完全一样 hdfs dfs(和hadoop fs等价) eg:hadoop fs -mkdir -p /user/hadoop/data hdfs df 阅读全文
posted @ 2017-07-31 10:23 霓裳梦竹 阅读(644) 评论(0) 推荐(0) 编辑
摘要:一、start-all.sh hadoop安装目录/home/hadoop/hadoop-2.8.0/ libexec/hadoop-config.sh 设置变量 sbin/start-dfs.sh 启动hdfs sbin/start-yarn.sh 启动yarn 二、sbin/start-dfs. 阅读全文
posted @ 2017-07-31 10:01 霓裳梦竹 阅读(582) 评论(1) 推荐(0) 编辑
摘要:低版本的hadoop下MapReduce处理流程 1、首先用户程序(JobClient)提交了一个job,job的信息会发送到Job Tracker,Job Tracker是Map-reduce框架的中心,他需要与集群中的机器定时通信heartbeat,需要管理哪些程序应该跑在哪些机器上,需要管理所 阅读全文
posted @ 2017-07-28 14:16 霓裳梦竹 阅读(19905) 评论(2) 推荐(5) 编辑