Hadoop - 随笔分类 - 勤奋的园

HDFS的hadoop和hdfs命令详解

摘要：原文链接：https://www.cnblogs.com/zsql/ 本篇主要对hadoop命令和hdfs命令进行阐述，yarn命令会在之后的文章中体现 hadoop fs命令可以用于其他文件系统，不止是hdfs文件系统内，也就是说该命令的使用范围更广可以用于HDFS、Local FS等不同的文件系阅读全文

posted @ 2021-04-25 13:53 勤奋的园阅读(899) 评论(0) 推荐(0)

HDFS数据平衡：节点间平衡与节点内平衡

摘要：一、节点间平衡 1、Apache 开启数据均衡命令： bin/start-balancer.sh –threshold 10 对于参数10，代表的是集群中各个节点的磁盘空间利用率相差不超过10%，可根据实际情况进行调整。停止数据均衡命令： bin/stop-balancer.sh 2、CDH CD 阅读全文

posted @ 2021-03-19 17:44 勤奋的园阅读(5361) 评论(0) 推荐(0)

手动合并hadoop namenode editlog

摘要：一. 基本概念 1.NN恢复实际上是由fsimage开始(这个相当于数据的base)，如果有多个fsimage，会自动选择最大的fsimage，然后按照editlog序列日志开始执行日志 2.seen_txid文件里的值是当前的最大editlog值。如果nn正在运行，则是edits_inprogre 阅读全文

posted @ 2020-08-20 17:33 勤奋的园阅读(1012) 评论(0) 推荐(0)

Yarn参数优化(Fair Scheduler版本)

摘要：YARN 自从hadoop2.0之后, 我们可以使用apache yarn 来对集群资源进行管理。yarn把可以把资源（内存,CPU）以Container的方式进行划分隔离。YARN会管理集群中所有机器的可用计算资源. 基于这些资源YARN会调度应用(比如MapReduce)发来的资源请求, 然后Y 阅读全文

posted @ 2020-08-14 10:39 勤奋的园阅读(881) 评论(0) 推荐(0)

HDFS查看文件的前几行-后几行-行数

摘要：随机返回指定行数的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* | shuf -n 5返回前几行的样本数据hadoop fs -cat /test/gonganbu/scene_analysis_suggestion/* 阅读全文

posted @ 2020-04-19 17:56 勤奋的园阅读(4177) 评论(0) 推荐(0)

MapReduce参数调优

摘要：原文链接：http://blog.javachen.com/2014/06/24/tuning-in-mapreduce/ 本文主要记录Hadoop 2.x版本中MapReduce参数调优，不涉及Yarn的调优。 Hadoop的默认配置文件（以cdh5.0.1为例）： core-default.xm 阅读全文

posted @ 2020-04-19 17:48 勤奋的园阅读(976) 评论(0) 推荐(0)

Hadoop----hdfs dfs常用命令的使用

摘要：用法 -mkdir 创建目录 Usage：hdfs dfs -mkdir [-p] < paths> 选项：-p 很像Unix mkdir -p，沿路径创建父目录。 -ls 查看目录下内容，包括文件名，权限，所有者，大小和修改时间 Usage：hdfs dfs -ls [-R] < args> 选项阅读全文

posted @ 2020-01-03 17:54 勤奋的园阅读(11939) 评论(0) 推荐(0)

hadoop fs、hadoop dfs与hdfs dfs的区别

摘要：hadoop fs：使用面最广，可以操作任何文件系统。 hadoop dfs与hdfs dfs ：只能操作HDFS文件系统相关（包括与Local FS间的操作），前者已经Deprecated，一般使用后者。以下内容参考自stackoverflow： Following are the thre 阅读全文

posted @ 2020-01-02 15:23 勤奋的园阅读(2921) 评论(0) 推荐(0)

HDFS读写流程(转载)

摘要：概述开始之前先看看其基本属性，HDFS（Hadoop Distributed File System）是GFS的开源实现。特点如下：能够运行在廉价机器上，硬件出错常态，需要具备高容错性流式数据访问，而不是随机读写面向大规模数据集，能够进行批处理、能够横向扩展简单一致性模型，假定文件是一次写入阅读全文

posted @ 2019-09-06 17:40 勤奋的园阅读(250) 评论(0) 推荐(0)

统计单词出现次数的mapreduce

摘要：1、新建Java项目 2、导包E:\工具\大数据\大数据提升资料\01-软件资料\06-Hadoop\安装包\Java1.8环境下编译\hadoop-2.7.3\hadoop-2.7.3\share\hadoop\mapreduce+hsfs的那些包+common 3、写项目 3.1 WCMappe 阅读全文

posted @ 2019-08-24 10:48 勤奋的园阅读(918) 评论(0) 推荐(0)

MapReduce统计每个用户的使用总流量

摘要：1、原始数据 2、使用java程序 1）新建项目 2）导包 hadoop-2.7.3\share\hadoop\mapreduce +hsfs的那些包 +common 3、写项目 1）实体类注：属性直接定义为String和 Long定义更方便 package com.zy.flow; import 阅读全文

posted @ 2019-07-25 20:08 勤奋的园阅读(1015) 评论(0) 推荐(0)

Java程序操作HDFS

摘要：1.新建项目2.导包解压hadoop-2.7.3.tar.gzE:\工具\大数据\大数据提升资料\01-软件资料\06-Hadoop\安装包\Java1.8环境下编译\hadoop-2.7.3\hadoop-2.7.3\share\hadoop\commonE:\工具\大数据\大数据提升资料\01 阅读全文

posted @ 2019-07-24 19:50 勤奋的园阅读(1156) 评论(0) 推荐(0)

勤奋的园

随笔分类 - Hadoop

公告