随笔分类 - hadoop
摘要:配置 hadoop+yarn+hbase+storm+kafka+spark+zookeeper 高可用集群,同时安装相关组建:JDK,MySQL,Hive,Flume 文章目录 环境介绍 节点介绍 集群介绍 软件版本介绍 前期准备 相关配置 新建用户 centos 添加sudo权限 更改用户名 主
        阅读全文
                
                    posted @ 2019-05-27 17:53  
左手编程右手诗
    
                
            
摘要:import java.net.URI;import java.util.Iterator;import java.util.Map.Entry; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Bloc
        阅读全文
                
                    posted @ 2019-05-18 09:15  
左手编程右手诗
    
                
            
摘要:1 mysql数据导入到hdfs数据 hadoop提供了org.apache.hadoop.io.Writable接口来实现简单的高效的可序列化的协议,该类基于DataInput和DataOutput来实现相关的功能。 hadoop对数据库访问也提供了org.apache.hadoop.mapred
        阅读全文
                
                    posted @ 2019-05-16 21:29  
左手编程右手诗
    
                
            
摘要:Yarn的产生 mapReduc1.0 1单点故障 2扩展效率低 3资源利用率高 降低运维成本 方便数据共享 多计算框架支持 MapReduce Spark Storm Yarn的架构图 Yarn模块介绍 ResourceManger 负责集群资源的统一管理和调度 处理客户端请求 启动/监控Appl
        阅读全文
                
摘要:HDFS命令基本格式:hadoop fs -cmd < args > ls 命令hadoop fs -ls /列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls -R /列出hdfs文件系统所有的目录和文件 put 命令hadoop fs -put < local file > <
        阅读全文
                
摘要:1、HDFS的设计 HDFS是什么:HDFS即Hadoop分布式文件系统(Hadoop Distributed Filesystem),以流式数据访问模式来存储超大文件,运行于商用硬件集群上,是管理网络中跨多台计算机存储的文件系统。 HDFS不适合用在:要求低时间延迟数据访问的应用,存储大量的小文件
        阅读全文
                
摘要:我们很荣幸能够见证Hadoop十年从无到有,再到称王。感动于技术的日新月异时,希望通过这篇内容深入解读Hadoop的昨天、今天和明天,憧憬下一个十年。 本文分为技术篇、产业篇、应用篇、展望篇四部分 本文分为技术篇、产业篇、应用篇、展望篇四部分 技术篇 2006年项目成立的一开始,“Hadoop”这个
        阅读全文
                
摘要:Hadoop 系列(一)基本概念 一、Hadoop 简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构,它可以使用户在不了解分布式底层细节的情況下开发分布式程序,充分利用集群的威力进行高速运算和存储。 从其定义就可以发现,它解決了两大问题:大数据存储、大数据分析。也就是 H
        阅读全文
                
                    
                
浙公网安备 33010602011771号