04 2017 档案
摘要:一、概述 sqoop 是 apache 旗下一款“ Hadoop 和关系数据库服务器之间传送数据”的工具。 导入数据: MySQL, Oracle 导入数据到 Hadoop 的 HDFS、 HIVE、 HBASE 等数据存储系统; 导出数据:从 Hadoop 的文件系统中导出数据到关系数据库 mys
        阅读全文
            
摘要:一、Hbase数据库介绍 1、简介 HBase 是 BigTable 的开源 java 版本。是建立在 HDFS 之上,提供高可靠性、高性能、列存储、 可伸缩、实时读写 NoSQL 的数据库系统。 NoSQL = NO SQL NoSQL = Not Only SQL 把 NoSQL 数据的原生查询
        阅读全文
            
摘要:一、高可就集群搭建 1、集群规划 2、集群服务器准备 (1) 修改主机名(2) 修改 IP 地址(3) 添加主机名和 IP 映射(4) 同步服务器时间(5) 关闭防火墙(6) 配置免密登录(7) 安装 JDK 3、集群安装 (1)安装zookeeper集群 (2)安装hadoop集群
        阅读全文
            
摘要:一、zookeeper原理解析 1、进群角色描述 2、Paxos 算法概述( ZAB 协议) 分布式一致性算法 3、Zookeeper 的选主(恢复模式) 以一个简单的例子来说明整个选举的过程.假设有五台服务器组成的 zookeeper 集群,它们的 id 从 1-5,同时它们都是最新启动的,也就是
        阅读全文
            
摘要:一、zookeeper集群搭建 鉴于 zookeeper 本身的特点,服务器集群的节点数推荐设置为奇数台。我这里我规划为三台, 为别为 hadoop01,hadoop02,hadoop03 1、下载地址: http://mirrors.hust.edu.cn/apache/zookeeper/ 版本
        阅读全文
            
摘要:一、Zookeeper是什么 (安装的是3.4.7) ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现。它提供了简单原始的功能,分布式应用可以基于它实现更高级 的服务, 比如分布式同步, 配置管理, 集群管理, 命名空间,队列管
        阅读全文
            
摘要:一、shuffle机制 1、概述 (1)MapReduce 中, map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中最关键的一个流程,这个流程就叫 Shuffle;(2)Shuffle: 数据混洗 ——(核心机制:数据分区,排序,缓存);(3) 具体来说:就是将 m
        阅读全文
            
摘要:一、MapJoin-DistributedCache 应用 1、mapreduce join 介绍 在各种实际业务场景中,按照某个关键字对两份数据进行连接是非常常见的。如果两份数据 都比较小,那么可以直接在内存中完成连接。如果是大数据量的呢? 显然,在内存中进行连 接会发生 OOM。 MapRedu
        阅读全文
            
摘要:一、介绍 1、数据库 数据库,通俗的讲,即为存储数据的“仓库”。不过,数据库不仅只是存储,还对所存储的数据做相应的管理,例如,访问权限,安全性,并发操作,数据的备份与恢复,日志等。实际上,我们所提及的数据库,就是数据库管理系统。( DBMS,Database Management System) 2
        阅读全文
            
摘要:一、mapreduce多job串联 1、需求 一个稍复杂点的处理逻辑往往需要多个 mapreduce 程序串联处理,多 job 的串联可以借助 mapreduce 框架的 JobControl 实现 2、实例 以下有两个 MapReduce 任务,分别是 Flow 的 SumMR 和 SortMR,
        阅读全文
            
摘要:mapreduce三大组件:Combiner\Sort\Partitioner 默认组件:排序,分区(不设置,系统有默认值) 一、mapreduce中的Combiner 1、什么是combiner Combiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件,它
        阅读全文
            
摘要:一、mapreduce入门 1、什么是mapreduce 首先让我们来重温一下 hadoop 的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN: hadoop 的资源调度系统Common: 以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等 Mapredu
        阅读全文
            
摘要:一、Hive 执行过程实例分析 1、join 对于 join 操作:SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid); 执行的最后结果条数: page_view 表中的 userid 数目 
        阅读全文
            
摘要:一、视图 视图:享用基本表的数据,不会生成另外一份数据创建视图:create view view_name as select * from carss;create view carss_view as select * from carss limit 500;查看视图:desc view_na
        阅读全文
            
摘要:一、hive函数 1、hive内置函数 (1)内容较多,见《 Hive 官方文档》 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF (2)详细解释: http://blog.sina.com.cn/s/blog_
        阅读全文
            
摘要:一、hive的各种join操作 语法结构:join_table:table_reference JOIN table_factor [join_condition]| table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference joi
        阅读全文
            
摘要:一、 spark 2 版本 相对于以前版本的变化 spark core : Accumulators (累加器):性能更好,页面上也可以看到累加器的信息 spark sql: 1、 2、DataSet(合并了之前的dataFrame) spark 2 里面没有dataframe了,dataframe
        阅读全文
            
摘要:一、DDL操作(定义操作) 1、创建表 (1)建表语法结构 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)] //字段注释[COMMENT table
        阅读全文
            
摘要:一、Hive的基本概念 (安装的是Apache hive 1.2.1) 1、hive简介 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表, 并提供类 SQL 查询功能, hive 底层是将 SQL 语句转换为 MapReduce 任务运行(类似于插件Pi
        阅读全文
            
摘要:一、HDFS的工作机制 工作机制的学习主要是为加深对分布式系统的理解,以及增强遇到各种问题时的分析解决能 力,形成一定的集群运维能力PS:很多不是真正理解 hadoop 工作原理的人会常常觉得 HDFS 可用于网盘类应用,但实际 并非如此。要想将技术准确用在恰当的地方,必须对技术有深刻的理解 概述 
        阅读全文
            
摘要:一、hadoop心跳机制(heartbeat) 1、 Hadoop 是 Master/Slave 结构, Master 中有 NameNode 和 ResourceManager, Slave 中有 Datanode 和 NodeManager 2、 Master 启动的时候会启动一个 IPC( I
        阅读全文
            
摘要:一、DataFrame 1、DataFrame是组织成命名列的数据的分布式集合,类似于关系型数据库的一张表,如果没有列名就等于RDD,如果有列名,就是DataFrames DataFrames可以从各种各样的源构建,例如:结构化数据文件(JSON文件,xml文件),Hive中的表,外部数据库或现有R
        阅读全文
            
摘要:一、HDFS前言 1、 设计思想 分而治之:将大文件,大批量文件,分布式的存放于大量服务器上。以便于采取分而治之的方式对海量数据进行运算分析 2、 在大数据系统架构中的应用 为各类分布式运算框架( MapReduce, Spark, Tez, Flink, …)提供数据存储服务 3、 重点概念: 数
        阅读全文
            
摘要:一、集群环境准备工作 1、修改主机名 在root 账户下 vi /etc/sysconfig/network 或者 sudo vi /etc/sysconfig/network 2、设置系统默认启动级别 在 root 账号下输入 vi /etc/inittab 将默认的5改为3即可 3、配置hado
        阅读全文
            
摘要:一、shell操作日期时间 linux 系统为我们提供了一个命令 date,专门用来显示或者设置系统日期时间的。 语法格式为: date [OPTION]... [+FORMAT] 或者 date [-u|--utc|--universal] [MMDDhhmm[[CC]YY][.ss]] 常用的可
        阅读全文
            
摘要:一、spark的提交模式 --master(standalone\YRAN\mesos) standalone:-client -cluster 如果我们用client模式去提交程序,我们在哪个地方提交的代码,哪个地方就启动driver;如果我们用的是cluster模式去提交,spark会在集群随机
        阅读全文
            
摘要:一、Linux shell简介 1、shell概述 Shell 是用户与内核进行交互操作的一种接口,目前最流行的 Shell 称为 bash Shell Shell 是一门编程语言<解释型的编程语言>,即 shell 脚本<就是在用 linux 的 shell 命令编程>, Shell 是一种脚本语
        阅读全文
            
摘要:一、防火墙 防火墙根据配置文件/etc/sysconfig/iptables 来控制本机的“出、入”网络访问行为 其对行为的配置策略有四个策略表 1、 基础必备技能 查看防火墙状态 service iptables status 开启防火墙 service iptables start 关闭防火墙 
        阅读全文
            
摘要:一、cut (cut 命令可以从一个文本文件或者文本流中提取文本列 ) 1、cut语法 cut -d '分隔字符' -f fields 用于有特定分隔字符 cut -c 字符区间 用于排列整齐的信息 选项与参数: -d:后面接分隔字符。与 -f 一起使用 -f:依据 -d 的分隔字符将一段信息分割成
        阅读全文
            
摘要:一、常用命令归纳分类 课外网站 http://man.linuxde.net/ http://www.jb51.net/linux/ https://jaywcjlove.github.io/linux-command/ 如果想查看命令的使用手册可以使用 man, 例如man clear 二、常用命
        阅读全文
            
摘要:一、Linux介绍 (安装的是Centos6.7) 1、Linux 系统是一套免费使用和自由传播的类 Unix 操作系统(主要用在服务器上),是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的UNIX 工具软件、应用程序和网络协议。它支持 32
        阅读全文
            
摘要:一、spark 学习 1、 spark学习的三种地方: (1)Spark.apache.org 官方文档 (2)spark的源代码的官方网站 https://github.com/apache/spark (3)spark的官方的博客 https://databricks.com/blog 大数据改
        阅读全文
            
                    
                
浙公网安备 33010602011771号