2017 年 4月随笔档案 - 凌-风

Sqoop数据迁移工具

摘要：一、概述 sqoop 是 apache 旗下一款“ Hadoop 和关系数据库服务器之间传送数据”的工具。导入数据： MySQL， Oracle 导入数据到 Hadoop 的 HDFS、 HIVE、 HBASE 等数据存储系统；导出数据：从 Hadoop 的文件系统中导出数据到关系数据库 mys 阅读全文

posted @ 2017-04-20 19:43 凌-风阅读(3735) 评论(0) 推荐(0)

Hbase(一)基础知识

摘要：一、Hbase数据库介绍 1、简介 HBase 是 BigTable 的开源 java 版本。是建立在 HDFS 之上，提供高可靠性、高性能、列存储、可伸缩、实时读写 NoSQL 的数据库系统。 NoSQL = NO SQL NoSQL = Not Only SQL 把 NoSQL 数据的原生查询阅读全文

posted @ 2017-04-20 17:33 凌-风阅读(23070) 评论(0) 推荐(2)

Zookeeper（四）Hadoop HA高可用集群搭建

摘要：一、高可就集群搭建 1、集群规划 2、集群服务器准备（1）修改主机名（2）修改 IP 地址（3）添加主机名和 IP 映射（4）同步服务器时间（5）关闭防火墙（6）配置免密登录（7）安装 JDK 3、集群安装（1）安装zookeeper集群（2）安装hadoop集群阅读全文

posted @ 2017-04-20 14:39 凌-风阅读(753) 评论(0) 推荐(0)

Zookeeper(三) Zookeeper原理与应用

摘要：一、zookeeper原理解析 1、进群角色描述 2、Paxos 算法概述（ ZAB 协议）分布式一致性算法 3、Zookeeper 的选主（恢复模式）以一个简单的例子来说明整个选举的过程.假设有五台服务器组成的 zookeeper 集群,它们的 id 从 1-5,同时它们都是最新启动的,也就是阅读全文

posted @ 2017-04-20 11:40 凌-风阅读(2000) 评论(0) 推荐(0)

Zookeeper(二) zookeeper集群搭建与使用

摘要：一、zookeeper集群搭建鉴于 zookeeper 本身的特点，服务器集群的节点数推荐设置为奇数台。我这里我规划为三台，为别为 hadoop01,hadoop02,hadoop03 1、下载地址： http://mirrors.hust.edu.cn/apache/zookeeper/ 版本阅读全文

posted @ 2017-04-20 10:50 凌-风阅读(995) 评论(0) 推荐(0)

Zookeeper(一) zookeeper基础使用

摘要：一、Zookeeper是什么 (安装的是3.4.7) ZooKeeper 是一个分布式的，开放源码的分布式应用程序协调服务，是 Google 的 Chubby 一个开源的实现。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如分布式同步，配置管理，集群管理，命名空间，队列管阅读全文

posted @ 2017-04-19 22:43 凌-风阅读(1076) 评论(0) 推荐(0)

MapReduce(五) mapreduce的shuffle机制与 Yarn

摘要：一、shuffle机制 1、概述（1）MapReduce 中， map 阶段处理的数据如何传递给 reduce 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 Shuffle；（2）Shuffle: 数据混洗 ——（核心机制：数据分区，排序，缓存）；（3）具体来说：就是将 m 阅读全文

posted @ 2017-04-19 22:28 凌-风阅读(1068) 评论(0) 推荐(0)

MapReduce(四) 典型编程场景（二）

摘要：一、MapJoin-DistributedCache 应用 1、mapreduce join 介绍在各种实际业务场景中，按照某个关键字对两份数据进行连接是非常常见的。如果两份数据都比较小，那么可以直接在内存中完成连接。如果是大数据量的呢？显然，在内存中进行连接会发生 OOM。 MapRedu 阅读全文

posted @ 2017-04-19 21:17 凌-风阅读(832) 评论(0) 推荐(0)

Mysql(一) 基本操作

摘要：一、介绍 1、数据库数据库，通俗的讲，即为存储数据的“仓库”。不过，数据库不仅只是存储，还对所存储的数据做相应的管理，例如，访问权限，安全性，并发操作，数据的备份与恢复，日志等。实际上，我们所提及的数据库，就是数据库管理系统。（ DBMS，Database Management System） 2 阅读全文

posted @ 2017-04-19 18:20 凌-风阅读(538) 评论(0) 推荐(0)

MapReduce(三) 典型场景（一）

摘要：一、mapreduce多job串联 1、需求一个稍复杂点的处理逻辑往往需要多个 mapreduce 程序串联处理，多 job 的串联可以借助 mapreduce 框架的 JobControl 实现 2、实例以下有两个 MapReduce 任务，分别是 Flow 的 SumMR 和 SortMR，阅读全文

posted @ 2017-04-17 17:59 凌-风阅读(3789) 评论(0) 推荐(0)

MapReduce(二)常用三大组件

摘要：mapreduce三大组件：Combiner\Sort\Partitioner 默认组件：排序，分区（不设置，系统有默认值）一、mapreduce中的Combiner 1、什么是combiner Combiner 是 MapReduce 程序中 Mapper 和 Reducer 之外的一种组件，它阅读全文

posted @ 2017-04-14 17:28 凌-风阅读(5913) 评论(3) 推荐(0)

MapReduce(一) mapreduce基础入门

摘要：一、mapreduce入门 1、什么是mapreduce 首先让我们来重温一下 hadoop 的四大组件：HDFS：分布式存储系统MapReduce：分布式计算系统YARN： hadoop 的资源调度系统Common：以上三大组件的底层支撑组件，主要提供基础工具包和 RPC 框架等 Mapredu 阅读全文

posted @ 2017-04-14 11:54 凌-风阅读(133447) 评论(2) 推荐(15)

Hive(六)hive执行过程实例分析与hive优化策略

摘要：一、Hive 执行过程实例分析 1、join 对于 join 操作：SELECT pv.pageid, u.age FROM page_view pv JOIN user u ON (pv.userid = u.userid); 执行的最后结果条数： page_view 表中的 userid 数目阅读全文

posted @ 2017-04-13 22:00 凌-风阅读(7572) 评论(1) 推荐(3)

Hive（五）hive的高级应用

摘要：一、视图视图：享用基本表的数据，不会生成另外一份数据创建视图：create view view_name as select * from carss;create view carss_view as select * from carss limit 500;查看视图：desc view_na 阅读全文

posted @ 2017-04-13 21:05 凌-风阅读(5777) 评论(1) 推荐(4)

Hive（四）hive函数与hive shell

摘要：一、hive函数 1、hive内置函数（1）内容较多，见《 Hive 官方文档》 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF （2）详细解释： http://blog.sina.com.cn/s/blog_ 阅读全文

posted @ 2017-04-12 19:54 凌-风阅读(4257) 评论(0) 推荐(0)

Hive(三)hive的高级操作

摘要：一、hive的各种join操作语法结构：join_table:table_reference JOIN table_factor [join_condition]| table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference joi 阅读全文

posted @ 2017-04-10 22:58 凌-风阅读(11734) 评论(0) 推荐(1)

spark(四)

摘要：一、 spark 2 版本相对于以前版本的变化 spark core ： Accumulators (累加器)：性能更好，页面上也可以看到累加器的信息 spark sql: 1、 2、DataSet(合并了之前的dataFrame) spark 2 里面没有dataframe了，dataframe 阅读全文

posted @ 2017-04-10 10:00 凌-风阅读(470) 评论(0) 推荐(0)

Hive（二）hive的基本操作

摘要：一、DDL操作（定义操作） 1、创建表（1）建表语法结构 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)] //字段注释[COMMENT table 阅读全文

posted @ 2017-04-08 16:18 凌-风阅读(5945) 评论(0) 推荐(1)

Hive(一)基础知识

摘要：一、Hive的基本概念（安装的是Apache hive 1.2.1） 1、hive简介 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类 SQL 查询功能， hive 底层是将 SQL 语句转换为 MapReduce 任务运行（类似于插件Pi 阅读全文

posted @ 2017-04-08 13:39 凌-风阅读(1892) 评论(0) 推荐(0)

hadoop（五）HDFS原理剖析

摘要：一、HDFS的工作机制工作机制的学习主要是为加深对分布式系统的理解，以及增强遇到各种问题时的分析解决能力，形成一定的集群运维能力PS：很多不是真正理解 hadoop 工作原理的人会常常觉得 HDFS 可用于网盘类应用，但实际并非如此。要想将技术准确用在恰当的地方，必须对技术有深刻的理解概述阅读全文

posted @ 2017-04-07 21:54 凌-风阅读(1794) 评论(0) 推荐(0)

hadoop（四）HDFS的核心设计

摘要：一、hadoop心跳机制（heartbeat） 1、 Hadoop 是 Master/Slave 结构， Master 中有 NameNode 和 ResourceManager， Slave 中有 Datanode 和 NodeManager 2、 Master 启动的时候会启动一个 IPC（ I 阅读全文

posted @ 2017-04-07 21:09 凌-风阅读(1357) 评论(0) 推荐(0)

spark（三）spark sql

摘要：一、DataFrame 1、DataFrame是组织成命名列的数据的分布式集合，类似于关系型数据库的一张表，如果没有列名就等于RDD，如果有列名，就是DataFrames DataFrames可以从各种各样的源构建，例如：结构化数据文件（JSON文件，xml文件），Hive中的表，外部数据库或现有R 阅读全文

posted @ 2017-04-06 20:14 凌-风阅读(469) 评论(0) 推荐(0)

hadoop（三）HDFS基础使用

摘要：一、HDFS前言 1、设计思想分而治之：将大文件，大批量文件，分布式的存放于大量服务器上。以便于采取分而治之的方式对海量数据进行运算分析 2、在大数据系统架构中的应用为各类分布式运算框架（ MapReduce， Spark， Tez， Flink， …）提供数据存储服务 3、重点概念：数阅读全文

posted @ 2017-04-06 19:53 凌-风阅读(2755) 评论(0) 推荐(0)

hadoop（二）hadoop集群的搭建

摘要：一、集群环境准备工作 1、修改主机名在root 账户下 vi /etc/sysconfig/network 或者 sudo vi /etc/sysconfig/network 2、设置系统默认启动级别在 root 账号下输入 vi /etc/inittab 将默认的5改为3即可 3、配置hado 阅读全文

posted @ 2017-04-05 21:13 凌-风阅读(4164) 评论(2) 推荐(0)

Linux（六）shell操作实用技巧

摘要：一、shell操作日期时间 linux 系统为我们提供了一个命令 date，专门用来显示或者设置系统日期时间的。语法格式为： date [OPTION]... [+FORMAT] 或者 date [-u|--utc|--universal] [MMDDhhmm[[CC]YY][.ss]] 常用的可阅读全文

posted @ 2017-04-05 20:29 凌-风阅读(715) 评论(0) 推荐(0)

spark(二)

摘要：一、spark的提交模式 --master（standalone\YRAN\mesos） standalone:-client -cluster 如果我们用client模式去提交程序，我们在哪个地方提交的代码，哪个地方就启动driver；如果我们用的是cluster模式去提交，spark会在集群随机阅读全文

posted @ 2017-04-05 11:50 凌-风阅读(993) 评论(0) 推荐(0)

Linux（五）shell编程基础

摘要：一、Linux shell简介 1、shell概述 Shell 是用户与内核进行交互操作的一种接口，目前最流行的 Shell 称为 bash Shell Shell 是一门编程语言<解释型的编程语言>，即 shell 脚本<就是在用 linux 的 shell 命令编程>， Shell 是一种脚本语阅读全文

posted @ 2017-04-04 22:49 凌-风阅读(806) 评论(0) 推荐(0)

Linux （四）其他一些服务的实现

摘要：一、防火墙防火墙根据配置文件/etc/sysconfig/iptables 来控制本机的“出、入”网络访问行为其对行为的配置策略有四个策略表 1、基础必备技能查看防火墙状态 service iptables status 开启防火墙 service iptables start 关闭防火墙阅读全文

posted @ 2017-04-04 21:38 凌-风阅读(375) 评论(0) 推荐(0)

Linux（三）高级文本处理命令

摘要：一、cut （cut 命令可以从一个文本文件或者文本流中提取文本列） 1、cut语法 cut -d '分隔字符' -f fields 用于有特定分隔字符 cut -c 字符区间用于排列整齐的信息选项与参数： -d：后面接分隔字符。与 -f 一起使用 -f：依据 -d 的分隔字符将一段信息分割成阅读全文

posted @ 2017-04-04 18:27 凌-风阅读(809) 评论(0) 推荐(0)

linux(二) 基本使用命令

摘要：一、常用命令归纳分类课外网站 http://man.linuxde.net/ http://www.jb51.net/linux/ https://jaywcjlove.github.io/linux-command/ 如果想查看命令的使用手册可以使用 man, 例如man clear 二、常用命阅读全文

posted @ 2017-04-03 21:09 凌-风阅读(540) 评论(0) 推荐(0)

Linux(一)——认识Linux

摘要：一、Linux介绍（安装的是Centos6.7） 1、Linux 系统是一套免费使用和自由传播的类 Unix 操作系统（主要用在服务器上），是一个基于 POSIX 和 UNIX 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的UNIX 工具软件、应用程序和网络协议。它支持 32 阅读全文

posted @ 2017-04-03 15:07 凌-风阅读(1834) 评论(0) 推荐(0)

spark（一）

摘要：一、spark 学习 1、 spark学习的三种地方：（1）Spark.apache.org 官方文档（2）spark的源代码的官方网站 https://github.com/apache/spark （3）spark的官方的博客 https://databricks.com/blog 大数据改阅读全文

posted @ 2017-04-01 11:50 凌-风阅读(565) 评论(0) 推荐(0)

人生，唯有锻炼与读书不能辜负

04 2017 档案

公告