随笔分类 - BigData
摘要:HDFS命令概述 HDFS命令涉及两类,一类是hadoop命令,一类是hdfs命令,功能也分为两类,第一类是HDFS文件操作命令,第二类是HDFS管理命令。 二者都是shell命令,真正的命令只有hadoop和hdfs,而无所谓的ls/mv/cp/cat/mkdir…dfs/setQuota/fsc
阅读全文
摘要:拿到一份Hadoop源码之后,经常关注的两件事情就是 1、怎么阅读?涉及IDEA和Eclipse工程搭建。IDEA搭建,选择源码,逐步导入即可;Eclipse可以选择后台生成工程,也可以选择IDE导入。二者工程也可以互相导入\到处。 2、怎么构建?利用maven,生成安装包。 二者均需配置maven
阅读全文
摘要:准备工具: maven 3.0.0版本或者更高版本(配置中心库) protocbuff 2.5.0 http://www.zlib.net/ git bash(Windows环境可以用此工具执行编译命令) 下载源码: http://hadoop.apache.org/releases.html ht
阅读全文
摘要:HDFS架构实现 Hadoop当前稳定版本是Apache Hadoop 2.9.2,最新版本是Apache Hadoop 3.1.1。 http://hadoop.apache.org/docs/ HDFS存储机制 Hadoop 2.x默认的block大小是128MB,Hadoop 1.x默认的bl
阅读全文
摘要:首先放一张官方图片,大致了解下整个MapReduce的处理过程。 抛出如下疑问: 1、MapReduce的基本原理是什么?即利用什么机制来实现的任务拆分处理? 2、MapReduce任务执行过程是什么?任务怎么提交?如何运行?哪个组件或者模块可以监控任务的运行状态,比如YARN服务?数据存储(原始数
阅读全文
摘要:spark任务在执行期间,有时候会遇到临时目录创建失败,导致任务执行错误。 spark执行过程的文件夹 1. spark创建临时文件机制 spark作为并行计算框架,同一个作业会被划分为多个任务在多个节点执行,reduce的输入可能存在于多个节点,因此需要shuffle将所有reduce的输入汇总起
阅读全文
摘要:Apache Kafka官网提供的性能说明: Benchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines)
阅读全文
摘要:问题现象:hadoop 3.1.0源码文件ClientNamenodeProtocolProtos大小4M+,IDEA打开时加载失败,ClientNamenodeProtocolPB报错找不到类。 问题原因:IDEA默认加载文件大小不超过2500KB,配置项为idea.max.intellisens
阅读全文

浙公网安备 33010602011771号