大数据系列 - 随笔分类 - 霓裳梦竹

【大数据系列】节点的退役和服役[datanode,yarn]

摘要：一、datanode添加新节点 1 在dfs.include文件中包含新节点名称，该文件在名称节点的本地目录下 [白名单] [s201:/soft/hadoop/etc/hadoop/dfs.include] 2 在hdfs-site.xml文件中添加属性 3 在nn上刷新节点 Hdfs dfsad 阅读全文

posted @ 2017-12-15 09:40 霓裳梦竹阅读(1815) 评论(1) 推荐(2) 编辑

【大数据系列】HDFS安全模式

摘要：一、什么是安全模式安全模式时HDFS所处的一种特殊状态，在这种状态下，文件系统只接受读数据请求，而不接受删除、修改等变更请求。在NameNode主节点启动时，HDFS首先进入安全模式，DataNode在启动的时候会向namenode汇报可用的block等状态，当整个系统达到安全标准时，HDFS自动阅读全文

posted @ 2017-12-13 14:15 霓裳梦竹阅读(994) 评论(0) 推荐(0) 编辑

【大数据系列】使用api修改hadoop的副本数和块大小

摘要：package com.slp.hdfs; import org.apache.commons.io.output.ByteArrayOutputStream; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataInputStream; import org.apache.hadoop.... 阅读全文

posted @ 2017-12-12 17:10 霓裳梦竹阅读(1543) 评论(0) 推荐(0) 编辑

【大数据系列】hadoop上传文件报错_COPYING_ could only be replicated to 0 nodes

摘要：使用hadoop上传文件 hdfs dfs -put XXX 查看hadoop是否正常，进程是否完整查看磁盘使用情况从这里可以看出操盘的空间都是空的原因可能是hadoop格式化的时候出现了问题然后将logs和tmp中的文件全部删除，重新格式化也没成功，后来看到clusterId不一致的问题阅读全文

posted @ 2017-12-08 11:15 霓裳梦竹阅读(14034) 评论(0) 推荐(1) 编辑

【大数据系列】windows环境下搭建hadoop开发环境使用api进行基本操作

摘要：前言搭建完hadoop集群之后在windows环境下搭建java项目进行测试操作hdfs中的文件版本一以上运行测试的时候会报错，原因是URL无法识别hdfs协议。版本二、这个时候就可以正确的打印出hdfs文件copyFromLocal的文件内容。附：可以将hadoop解压文件下etc中阅读全文

posted @ 2017-11-30 17:50 霓裳梦竹阅读(1407) 评论(0) 推荐(0) 编辑

【大数据系列】FileSystem Shell官方文档翻译

摘要：appendToFile cat checksum chgrp chmod chown copyFromLocal copyToLocal count cp createSnapshot deleteSnapshot df du dus expunge find get getfacl getfat 阅读全文

posted @ 2017-08-11 09:40 霓裳梦竹阅读(1132) 评论(0) 推荐(0) 编辑

【大数据系列】hadoop命令指导官方文档翻译

摘要：Hadoop Commands Guide Overview Shell Options Generic Options User Commands archive checknative classpath credential distch distcp dtutil fs gridmix ja 阅读全文

posted @ 2017-08-10 09:39 霓裳梦竹阅读(1164) 评论(0) 推荐(0) 编辑

【大数据系列】hadoop集群设置官方文档翻译

摘要：Hadoop Cluster Setup Purpose Prerequisites Installation Configuring Hadoop in Non-Secure Mode Configuring Environment of Hadoop Daemons Configuring th 阅读全文

posted @ 2017-08-08 09:31 霓裳梦竹阅读(1663) 评论(0) 推荐(0) 编辑

【大数据系列】hadoop单节点安装官方文档翻译

摘要：Hadoop: Setting up a Single Node Cluster. HADOOP：建立单节点集群 Purpose Prerequisites Supported Platforms Required Software Installing Software Download Prep 阅读全文

posted @ 2017-08-07 11:52 霓裳梦竹阅读(854) 评论(0) 推荐(0) 编辑

【大数据系列】Hive安装及web模式管理

摘要：一、什么是Hive Hive是建立在Hadoop基础常的数据仓库基础架构，，它提供了一系列的工具，可以用了进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在Hadoop中的按规模数据的机制。Hive定义了简单的类SQL查询语句，称为HQL。它允许熟悉SQL的用户查询数据、同时。这个语阅读全文

posted @ 2017-08-07 00:18 霓裳梦竹阅读(774) 评论(0) 推荐(0) 编辑

【大数据系列】apache hive 官方文档翻译

摘要：GettingStarted 开始 GettingStarted 开始 Created by Confluence Administrator, last modified by Lefty Leverenz on Jun 15, 2017 本文档由Confluence管理员创建，2017年6月15 阅读全文

posted @ 2017-08-03 15:39 霓裳梦竹阅读(1212) 评论(0) 推荐(2) 编辑

【大数据系列】问题汇总

摘要：1、执行hive之后执行别的命令出现如下 java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient 找了各种解决办法有人说是要重启me 阅读全文

posted @ 2017-08-03 11:50 霓裳梦竹阅读(324) 评论(0) 推荐(0) 编辑

【大数据系列】hive修改默认的derby数据库

摘要：javax.jdo.option.ConnectionURL jdbc:mysql://localhost/metastore?createDatabaseIfNotExist=true javax.jdo.option.ConnectionDriverName com.mysql.jdbc.Driver javax.jdo.option.Conne... 阅读全文

posted @ 2017-08-03 11:22 霓裳梦竹阅读(524) 评论(0) 推荐(0) 编辑

【大数据系列】hive安装及启动

摘要：一、安装好jdk和hadoop 二、下载apache-hive https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.0/ 三、解压到安装目录并配置环境变量 tar -zxvf apache-hive-2.3.0 #解压 vi /etc/ 阅读全文

posted @ 2017-08-03 11:05 霓裳梦竹阅读(335) 评论(0) 推荐(0) 编辑

【大数据系列】MapReduce详解

摘要：MapReduce是hadoop中的一个计算框架，用来处理大数据。所谓大数据处理，即以价值为导向，对大数据加工，挖掘和优化等各种处理。 MapReduce擅长处理大数据，这是由MapReduce的设计思想决定的“分而治之”。 1）Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理阅读全文

posted @ 2017-08-02 15:56 霓裳梦竹阅读(645) 评论(0) 推荐(0) 编辑

【大数据系列】基于MapReduce的数据处理 SequenceFile序列化文件

摘要：为键值对提供持久的数据结构 1、txt纯文本格式，若干行记录 2、SequenceFile key-value格式，若干行记录，类似于map 3、编写写入和读取的文件测试方法的输出为： 1=tom12=tom23=tom34=tom4 4、查看文件阅读全文

posted @ 2017-08-01 15:49 霓裳梦竹阅读(421) 评论(0) 推荐(0) 编辑

【大数据系列】windows下连接Linux环境开发

摘要：一、配置文件 1.core-site.xml 2、hdfs-site.xml 3、yarn-site.xml 4、slaves 二、建立本地连接三、创建MapReduceProject 1、File -- new - Other --MapReduceProject 2、建立测试文件 3、run 阅读全文

posted @ 2017-07-31 18:33 霓裳梦竹阅读(451) 评论(0) 推荐(0) 编辑

【大数据系列】常用命令

摘要：1、格式化系统 hadoop namenode -format 2、put 上传（） hadoop fs -put //hdfs dfs -put完全一样 hdfs dfs(和hadoop fs等价) eg:hadoop fs -mkdir -p /user/hadoop/data hdfs df 阅读全文

posted @ 2017-07-31 10:23 霓裳梦竹阅读(644) 评论(0) 推荐(0) 编辑

【大数据系列】hadoop脚本分析

摘要：一、start-all.sh hadoop安装目录/home/hadoop/hadoop-2.8.0/ libexec/hadoop-config.sh 设置变量 sbin/start-dfs.sh 启动hdfs sbin/start-yarn.sh 启动yarn 二、sbin/start-dfs. 阅读全文

posted @ 2017-07-31 10:01 霓裳梦竹阅读(582) 评论(1) 推荐(0) 编辑

【大数据系列】hadoop2.0中的jobtracker和tasktracker哪里去了

摘要：低版本的hadoop下MapReduce处理流程 1、首先用户程序(JobClient)提交了一个job,job的信息会发送到Job Tracker,Job Tracker是Map-reduce框架的中心，他需要与集群中的机器定时通信heartbeat,需要管理哪些程序应该跑在哪些机器上，需要管理所阅读全文

posted @ 2017-07-28 14:16 霓裳梦竹阅读(19905) 评论(2) 推荐(5) 编辑

霓裳梦竹

Zero to hero ~

随笔分类 - 大数据系列

公告