随笔分类 -  Hadoop

摘要:原文链接:https://www.cnblogs.com/zsql/ 本篇主要对hadoop命令和hdfs命令进行阐述,yarn命令会在之后的文章中体现 hadoop fs命令可以用于其他文件系统,不止是hdfs文件系统内,也就是说该命令的使用范围更广可以用于HDFS、Local FS等不同的文件系 阅读全文
posted @ 2021-04-25 13:53 勤奋的园 阅读(899) 评论(0) 推荐(0)
摘要:一、节点间平衡 1、Apache 开启数据均衡命令: bin/start-balancer.sh –threshold 10 对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。 停止数据均衡命令: bin/stop-balancer.sh 2、CDH CD 阅读全文
posted @ 2021-03-19 17:44 勤奋的园 阅读(5361) 评论(0) 推荐(0)
摘要:一. 基本概念 1.NN恢复实际上是由fsimage开始(这个相当于数据的base),如果有多个fsimage,会自动选择最大的fsimage,然后按照editlog序列日志开始执行日志 2.seen_txid文件里的值是当前的最大editlog值。如果nn正在运行,则是edits_inprogre 阅读全文
posted @ 2020-08-20 17:33 勤奋的园 阅读(1012) 评论(0) 推荐(0)
摘要:YARN 自从hadoop2.0之后, 我们可以使用apache yarn 来对集群资源进行管理。yarn把可以把资源(内存,CPU)以Container的方式进行划分隔离。YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后Y 阅读全文
posted @ 2020-08-14 10:39 勤奋的园 阅读(881) 评论(0) 推荐(0)
摘要:随机返回指定行数的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5返回前几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* 阅读全文
posted @ 2020-04-19 17:56 勤奋的园 阅读(4177) 评论(0) 推荐(0)
摘要:原文链接:http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/ 本文主要记录Hadoop 2.x版本中MapReduce参数调优,不涉及Yarn的调优。 Hadoop的默认配置文件(以cdh5.0.1为例): core-default.xm 阅读全文
posted @ 2020-04-19 17:48 勤奋的园 阅读(976) 评论(0) 推荐(0)
摘要:用法 -mkdir 创建目录 Usage:hdfs dfs -mkdir [-p] < paths> 选项:-p 很像Unix mkdir -p,沿路径创建父目录。 -ls 查看目录下内容,包括文件名,权限,所有者,大小和修改时间 Usage:hdfs dfs -ls [-R] < args> 选项 阅读全文
posted @ 2020-01-03 17:54 勤奋的园 阅读(11939) 评论(0) 推荐(0)
摘要:hadoop fs: 使用面最广,可以操作任何文件系统。 hadoop dfs与hdfs dfs : 只能操作HDFS文件系统相关(包括与Local FS间的操作),前者已经Deprecated,一般使用后者。 以下内容参考自stackoverflow: Following are the thre 阅读全文
posted @ 2020-01-02 15:23 勤奋的园 阅读(2921) 评论(0) 推荐(0)
摘要:概述开始之前先看看其基本属性,HDFS(Hadoop Distributed File System)是GFS的开源实现。特点如下: 能够运行在廉价机器上,硬件出错常态,需要具备高容错性 流式数据访问,而不是随机读写 面向大规模数据集,能够进行批处理、能够横向扩展 简单一致性模型,假定文件是一次写入 阅读全文
posted @ 2019-09-06 17:40 勤奋的园 阅读(250) 评论(0) 推荐(0)
摘要:1、新建Java项目 2、导包E:\工具\大数据\大数据提升资料\01-软件资料\06-Hadoop\安装包\Java1.8环境下编译\hadoop-2.7.3\hadoop-2.7.3\share\hadoop\mapreduce+hsfs的那些包+common 3、写项目 3.1 WCMappe 阅读全文
posted @ 2019-08-24 10:48 勤奋的园 阅读(918) 评论(0) 推荐(0)
摘要:1、原始数据 2、使用java程序 1)新建项目 2)导包 hadoop-2.7.3\share\hadoop\mapreduce +hsfs的那些包 +common 3、写项目 1)实体类 注:属性直接定义为String和 Long定义更方便 package com.zy.flow; import 阅读全文
posted @ 2019-07-25 20:08 勤奋的园 阅读(1015) 评论(0) 推荐(0)
摘要:1.新建项目2.导包 解压hadoop-2.7.3.tar.gzE:\工具\大数据\大数据提升资料\01-软件资料\06-Hadoop\安装包\Java1.8环境下编译\hadoop-2.7.3\hadoop-2.7.3\share\hadoop\commonE:\工具\大数据\大数据提升资料\01 阅读全文
posted @ 2019-07-24 19:50 勤奋的园 阅读(1156) 评论(0) 推荐(0)