BigData - 随笔分类 - Hopkins'Cybernetics

HDFS命令实现分析

摘要：HDFS命令概述 HDFS命令涉及两类，一类是hadoop命令，一类是hdfs命令，功能也分为两类，第一类是HDFS文件操作命令，第二类是HDFS管理命令。二者都是shell命令，真正的命令只有hadoop和hdfs，而无所谓的ls/mv/cp/cat/mkdir…dfs/setQuota/fsc 阅读全文

posted @ 2018-12-16 23:39 Hopkins'Cybernetics 阅读(443) 评论(0) 推荐(0)

Hadoop源码阅读环境搭建（IDEA）

摘要：拿到一份Hadoop源码之后，经常关注的两件事情就是 1、怎么阅读？涉及IDEA和Eclipse工程搭建。IDEA搭建，选择源码，逐步导入即可；Eclipse可以选择后台生成工程，也可以选择IDE导入。二者工程也可以互相导入\到处。 2、怎么构建？利用maven，生成安装包。二者均需配置maven 阅读全文

posted @ 2018-12-16 17:49 Hopkins'Cybernetics 阅读(3028) 评论(1) 推荐(0)

Hadoop源码编译环境搭建

摘要：准备工具： maven 3.0.0版本或者更高版本（配置中心库） protocbuff 2.5.0 http://www.zlib.net/ git bash（Windows环境可以用此工具执行编译命令）下载源码： http://hadoop.apache.org/releases.html ht 阅读全文

posted @ 2018-12-16 11:41 Hopkins'Cybernetics 阅读(1441) 评论(0) 推荐(0)

HDFS文件系统基础

摘要：HDFS架构实现 Hadoop当前稳定版本是Apache Hadoop 2.9.2，最新版本是Apache Hadoop 3.1.1。 http://hadoop.apache.org/docs/ HDFS存储机制 Hadoop 2.x默认的block大小是128MB，Hadoop 1.x默认的bl 阅读全文

posted @ 2018-12-15 23:53 Hopkins'Cybernetics 阅读(150) 评论(0) 推荐(0)

MapReduce任务学习系列

摘要：首先放一张官方图片，大致了解下整个MapReduce的处理过程。抛出如下疑问： 1、MapReduce的基本原理是什么？即利用什么机制来实现的任务拆分处理？ 2、MapReduce任务执行过程是什么？任务怎么提交？如何运行？哪个组件或者模块可以监控任务的运行状态，比如YARN服务？数据存储（原始数阅读全文

posted @ 2018-12-12 23:52 Hopkins'Cybernetics 阅读(151) 评论(0) 推荐(0)

Spark任务执行期间写临时文件报错导致失败

摘要：spark任务在执行期间，有时候会遇到临时目录创建失败，导致任务执行错误。 spark执行过程的文件夹 1. spark创建临时文件机制 spark作为并行计算框架，同一个作业会被划分为多个任务在多个节点执行，reduce的输入可能存在于多个节点，因此需要shuffle将所有reduce的输入汇总起阅读全文

posted @ 2018-12-08 12:53 Hopkins'Cybernetics 阅读(2107) 评论(0) 推荐(0)

Kafka高性能吞吐关键技术分析

摘要：Apache Kafka官网提供的性能说明： Benchmarking Apache Kafka: 2 Million Writes Per Second (On Three Cheap Machines) 阅读全文

posted @ 2018-11-24 22:42 Hopkins'Cybernetics 阅读(344) 评论(0) 推荐(0)

HDFS源码文件过大，IDEA打开失败解决方法

摘要：问题现象：hadoop 3.1.0源码文件ClientNamenodeProtocolProtos大小4M+，IDEA打开时加载失败，ClientNamenodeProtocolPB报错找不到类。问题原因：IDEA默认加载文件大小不超过2500KB，配置项为idea.max.intellisens 阅读全文

posted @ 2018-11-24 22:22 Hopkins'Cybernetics 阅读(470) 评论(0) 推荐(0)

Hopkins' Cybn

随笔分类 - BigData

公告