岑忠满

2017年7月29日

摘要：说明：使用 shell action 执行 shell 脚本 hive select test.sh 来通过已经配置好的 Hive f 来执行 HQL 查询脚本文件 select.sql 1.创建脚本文件 hive select test.sh !/bin/sh /opt/cdh5.3.6/hive 阅读全文

posted @ 2017-07-29 00:16 岑忠满阅读(4212) 评论(0) 推荐(0) 编辑

2017年7月28日

Oozie 之 sqoop 实战

摘要： 1.创建 lib 目录并拷贝 mysql 支持包 2.修改 job.properties 文件 nameNode=hdfs://cen ubuntu.cenzhongman.com:8020 jobTracker=localhost:8032 queueName=default oozieAppsR 阅读全文

posted @ 2017-07-28 18:44 岑忠满阅读(2643) 评论(0) 推荐(0) 编辑

Oozie 实战之 Hive

摘要： 1.编辑job.propertiers nameNode=hdfs://cen ubuntu.cenzhongman.com:8020 jobTracker=localhost:8032 queueName=default oozieAppsRoot=oozie apps oozie.use.sys 阅读全文

posted @ 2017-07-28 00:10 岑忠满阅读(2120) 评论(0) 推荐(0) 编辑

2017年7月27日

Oozie wordcount实战

摘要：一、定义基本概念 Action: An execution/computation task (Map Reduce job, Pig job, a shell command). It can also be referred as task or 'action node'. 》》》》Acti 阅读全文

posted @ 2017-07-27 16:41 岑忠满阅读(763) 评论(0) 推荐(0) 编辑

2017年7月24日

Oozie 安装及 examples app 的使用

摘要： "参考文档" 一、Building OOzie 特别注意的是修改Pom.xml文件中的版本与本机中安装的版本相同二、 install Oozie 1.为 hadoop 添加 Oozie 的代理用户，添加如下配置到 hadoop 的 core site.xml 中(需Hadoop读取之后才会生效) 阅读全文

posted @ 2017-07-24 22:51 岑忠满阅读(1304) 评论(0) 推荐(0) 编辑

Oozie是什么

摘要： Apache Oozie Workflow Scheduler for Hadoop Oozie is a workflow scheduler system to manage Apache Hadoop jobs. Oozie 是一个工作流调度系统用来管理 Hadoop 任务工作流调度：工作流阅读全文

posted @ 2017-07-24 15:56 岑忠满阅读(11768) 评论(0) 推荐(1) 编辑

2017年7月23日

Flume使用（案例分析）

摘要： "Flume官方文档" Usage: bin/flume ng [options]... commands: help display this help text agent run a Flume agent global options: conf, c use configs in dire 阅读全文

posted @ 2017-07-23 22:48 岑忠满阅读(2578) 评论(0) 推荐(0) 编辑

一个数据仓库的设计架构

摘要：来自服务器大型 RDBMS 的数据通过 Sqoop 工具导入 HDFS/HBase 来自服务器的日志文件通过 Flume 工具导入 HDFS/HBase 数据通过 MapReduce 程序，Hive/pig/impala(一个类似 hive 的内存计算框架) 工具进行数据分析，并使用 Oozie/ 阅读全文

posted @ 2017-07-23 21:57 岑忠满阅读(471) 评论(0) 推荐(0) 编辑

Flume是什么

摘要：分布式流式实时收集日志文件系统，便于实时在线的流式计算，常配合 Storm 和 spark streming 使用。 Flume is a distributed 分布式的, reliable 可靠的, and available 可用的 service for efficiently高效 coll 阅读全文

posted @ 2017-07-23 11:39 岑忠满阅读(662) 评论(0) 推荐(0) 编辑

2017年7月22日

一个高效的虚拟机(双系统)安装方法

摘要：工具 VMWare Workstation 12 U盘装好windows的电脑 ubuntu iso文件 UltraISO 软件目的安装虚拟机和双系统仅占用一次空间，且运行效率更高(个人感觉)，文件自动同步！安装双系统一、使用 UltraISO 制作 ubuntu 启动盘二、重启电脑，打阅读全文

posted @ 2017-07-22 22:24 岑忠满阅读(12261) 评论(0) 推荐(0) 编辑

2017年7月21日

Sqoop 工具使用

摘要： Sqoop 是什么及安装 "Hadoop sqoop" Apache sqoop (SQL to Hadoop) Sqoop is a tool designed to transfer data between Hadoop and relational databases or mainfram 阅读全文

posted @ 2017-07-21 12:37 岑忠满阅读(1212) 评论(0) 推荐(0) 编辑

2017年7月20日

MySQL 5.7远程连接

摘要：将/etc/mysql/my.cnf中的bind_address那一行注释掉或修改为“bind_address=0.0.0.0”： bind_address并没有在/etc/mysql/my.cnf文件中，这个文件除去注释只有如下两行内容： !includedir /etc/mysql/conf.d 阅读全文

posted @ 2017-07-20 11:35 岑忠满阅读(684) 评论(0) 推荐(0) 编辑

2017年7月19日

如何使用Python脚本

摘要： "来自官方文档" 一、写 python 脚本： import sys import datetime for line in sys.stdin: line = line.strip() userid, movieid, rating, unixtime = line.split('\t') wee 阅读全文

posted @ 2017-07-19 16:10 岑忠满阅读(1170) 评论(0) 推荐(0) 编辑

Hive 数据实战

摘要：需求 remote_addr 用户IP 1.用于根据地址确认区域 2.用于统计来自同一个（外网）用户的访问数量 time_local 用户访问时间 1.分析用户访问时间段 2.合理安排客服上班时间 request 用户请求的URL 1.统计用户最感兴趣的内容 2.用户最容易发现的区域/内容 http 阅读全文

posted @ 2017-07-19 16:10 岑忠满阅读(287) 评论(0) 推荐(0) 编辑

2017年7月18日

Hive 的企业优化

摘要：优化数据优化一、从大表拆分成小表（更快地检索）引用： "Hive LanguageManual DDL" eg2:常用于分表 create table if not exists default.cenzhongman_2 AS select ip,date from default.cenz 阅读全文

posted @ 2017-07-18 10:05 岑忠满阅读(283) 评论(0) 推荐(0) 编辑

2017年7月17日

Hive 表数据的存储和压缩格式

摘要： "SerDe" 按行存储按列存储 file_format: : | SEQUENCEFILE 序列化(行存储) | TEXTFILE 文本格式(行存储) (Default, depending on hive.default.fileformat configuration) | RCFILE 列阅读全文

posted @ 2017-07-17 20:26 岑忠满阅读(4338) 评论(0) 推荐(0) 编辑

Hadoop2.8.0 源码编译

摘要：一、下载源码并解压二、检查以下几项必须有网络！！！ JDK 1.7+ "安装方法" java version Maven 3.0 or later "安装方法" mvn version Findbugs 1.3.9，需要解压到/usr/share/目录下，并添加环境变量 "安装方法" Proto 阅读全文

posted @ 2017-07-17 18:18 岑忠满阅读(375) 评论(0) 推荐(0) 编辑

2017年7月15日

Hive 压缩技术Data Compression

摘要： Mapreducwe 执行流程：input map shuffle reduce output 压缩执行时间，map 之后，压缩，数据存储在本地磁盘，减少磁盘IO，减少网络带宽。 1.常见压缩技术压缩格式 bzip2 gzip lzo snappy 压缩比 bzip2 gzip lzo | sn 阅读全文

posted @ 2017-07-15 23:46 岑忠满阅读(517) 评论(0) 推荐(0) 编辑

HiveServer2

摘要： "HiveServer2" 一、启动 Hiveserver2 一个Server 二、连接HiveServer2 1.通过启动 Beeline 一个Client 1.1从 Beeline 通过 JDBC 连接 Hiveserver2 !connect jdbc:hive2://hostname ubu 阅读全文

posted @ 2017-07-15 22:31 岑忠满阅读(451) 评论(0) 推荐(0) 编辑

Hive 中的 UDF

摘要： "LanguageManual UDF" 一、分类 UDF:User defined function 用户定义函数一进一出 UDAF:User defined aggregation function 聚类函数：多进一出如：max min count UDTF:User definesd ta 阅读全文

posted @ 2017-07-15 15:00 岑忠满阅读(315) 评论(0) 推荐(0) 编辑

2017年7月14日

Hive数据导入导出的n种方式

摘要： "Tutorial LoadingData" Hive加载数据的6种方式格式 load data [local] inpath '/op/datas/xxx.txt' [overwrite] into table tablename [partition (partcol1 = val1,part 阅读全文

posted @ 2017-07-14 15:46 岑忠满阅读(657) 评论(0) 推荐(0) 编辑

2017年7月13日

Hive LanguageManual DDL

摘要： "hive语法规则LanguageManual DDL" SQL DML 和 DDL 数据操作语言 (DML) 和数据定义语言 (DDL) 一、数据库增删改都在文档里说得也很明白，不重复造车轮二、表 1.创建table重点解析如下 Create Table eg1:基础创建方式 create 阅读全文

posted @ 2017-07-13 21:38 岑忠满阅读(510) 评论(0) 推荐(0) 编辑

Hive环境搭建及基本操作

摘要：伪分布式一、安装及配置Hive 1.配置HADOOP_HOME和Hive conf 目录hive env.sh Set HADOOP_HOME to point to a specific hadoop install directory HADOOP_HOME=/opt/softwares/ha 阅读全文

posted @ 2017-07-13 17:53 岑忠满阅读(772) 评论(0) 推荐(0) 编辑

2017年7月12日

Hive是什么

摘要： Hive用于对数据进行ETL(extract/tranform/load) 1.load file data to database E 2.使用select / python 进行转换 T 3.数据转换后在sub表中 L "Hive官方网站" "Gettingstarted" The Apache 阅读全文

posted @ 2017-07-12 11:28 岑忠满阅读(386) 评论(0) 推荐(0) 编辑

2017年7月10日

Hadoop三大发行版本

摘要： "apache" 提供基础版本 "cloudera" 主要是修改Hadoop，提供更加稳定的发行版本，以及可视化的管理服务，主要产品如下： CDH:Cloudera Distributed Hadoop Cloudera Manager 集群分发管理监控平台 Cloudera Support "Ho 阅读全文

posted @ 2017-07-10 17:14 岑忠满阅读(745) 评论(0) 推荐(0) 编辑

Hadoop常用高级特性

摘要： HDFS HA "HDFS HA(High Availability)高可用性" 相同版本拷贝工具，分布式集群拷贝工具，使用MapReduce实现 "DistCp Version2 Guide" HFTP协议，用于不同版本Hadoop拷贝 For example, you can do things 阅读全文

posted @ 2017-07-10 14:00 岑忠满阅读(285) 评论(0) 推荐(0) 编辑

2017年7月9日

HDFS HA(High Availability)高可用性

摘要： HDFS HA(High Availability)高可用性参考文献： "官方文档" "全文翻译" "Hadoop组件之 HDFS(HA实现细节)" 这张图片的个人理解由于NameNode在Hadoop1只有一个节点，可能存在(SPOF)single point of file单节点故障。包括机阅读全文

posted @ 2017-07-09 18:33 岑忠满阅读(556) 评论(0) 推荐(0) 编辑

Zookeeper的安装

摘要：伪分布式安装 1.下载ZooKeeper 2.创建数据文件目录 $ mkdir p data/zkData 3.编辑配置文件 $ vim conf/zoo.cfg dataDir=/opt/softwares/zookeeper 3.4.9/data/zkData 4.启动ZookeeperServ 阅读全文

posted @ 2017-07-09 16:34 岑忠满阅读(175) 评论(0) 推荐(0) 编辑

什么是Zookeeper

摘要： "官方文档" ZooKeeper: A Distributed Coordination Service for Distributed Applications ZooKeeper:一个开源的分布式的，为分布式应用提供协调服务的应用 ZooKeeper is a distributed, open 阅读全文

posted @ 2017-07-09 15:36 岑忠满阅读(351) 评论(0) 推荐(0) 编辑

Hadoop集群时间同步

摘要： 1.安装ntp服务 $ sudo apt get install ntp 2.修改配置文件参考 "配置NTP服务ntpd/ntp.conf（搭建Hadoop集群可参考）" $ vim /etc/ntp.conf 配置客户端的授权，也就是给指定的机器（客户端）设置访问NTP Server的权限，这是阅读全文

posted @ 2017-07-09 13:53 岑忠满阅读(2109) 评论(0) 推荐(0) 编辑

Hadoop学习笔记

摘要： Hadoop生态系统图解 " " 什么是Hadoo " " hdfs文件系统架构详解 " " YARN框架详解 " " MapReduce执行流程及程序编写 " " Hadoop本地安装 " " 安装配置文件解析 " " Hadoop三种启动方式 " " Hadoop开发 " " Maven搭建Ha 阅读全文

posted @ 2017-07-09 11:36 岑忠满阅读(245) 评论(0) 推荐(0) 编辑

2017年7月8日

分布式系统搭建

摘要：组建分布： hadoop senior hadoop senior02 hadoop senior03 HDFS NameNode DataNode DataNode DataNode SecondaryNameNode YARN ResourceManager NodeManager NodeMa 阅读全文

posted @ 2017-07-08 21:25 岑忠满阅读(533) 评论(0) 推荐(0) 编辑

ubuntu主机名修改

摘要： 1、查看主机名在Ubuntu系统中，快速查看主机名有多种方法：其一，打开一个GNOME终端窗口，在命令提示符中可以看到主机名，主机名通常位于“@”符号后；其二，在终端窗口中输入命令：hostname或uname –n，均可以查看到当前主机的主机名。 2、临时修改主机名命令行下运行命令：“ho 阅读全文

posted @ 2017-07-08 12:04 岑忠满阅读(468) 评论(0) 推荐(0) 编辑

2017年7月7日

自定义MapReduce中数据类型

摘要：数据类型(都实现了Writable接口) BooleanWritable 布尔类型 ByteWritable 单字节数值 DoubleWritable 双字节数值 FloatWritable 浮点数 IntWritable 整型数 LongWritable 长整型 Text UTF 8格式存储的文本阅读全文

posted @ 2017-07-07 20:00 岑忠满阅读(1710) 评论(0) 推荐(0) 编辑

2017年7月6日

MapReduce执行流程及程序编写

摘要： MapReduce 一种分布式计算模型，解决海量数据的计算问题，MapReduce将计算过程抽象成两个函数 Map(映射):对一些独立元素（拆分后的小块）组成的列表的每一个元素进行指定的操作，可以高度并行。 Reduce(化简)：对一个列表的元素进行合并 input map reduce outpu 阅读全文

posted @ 2017-07-06 20:03 岑忠满阅读(1963) 评论(0) 推荐(0) 编辑

YARN框架详解

摘要： YARN框架详解 "YARN官方解释" YARN是什么 The fundamental(定义) idea of YARN is to split(分开) up the functionalities(功能) of resource management and job scheduling/moni 阅读全文

posted @ 2017-07-06 11:18 岑忠满阅读(471) 评论(0) 推荐(0) 编辑

2017年6月29日

Maven下从HDFS文件系统读取文件内容

摘要：需要注意以下几点 1.所以的包都是org.apache.hadoop.XXX 2.三个配置文件要放到指定文件夹中等待文件系统读取（src/main/resources）:core site.xml hdfs site.xml log4j.properties 3.文件路径指向要正确 package 阅读全文

posted @ 2017-06-29 19:22 岑忠满阅读(1485) 评论(0) 推荐(0) 编辑

Maven搭建Hadoop开发环境

摘要： 1.安装maven（用于管理仓库，jar包的管理） 1.解压maven安装包 2.把maven添加到环境变量/etc/profile 3.添加maven目录下的conf/setting.xml文件到～/.m2文件夹下 2.安装eclipse 1.解压eclipse安装文件 2.执行eclipse.i 阅读全文

posted @ 2017-06-29 11:49 岑忠满阅读(10508) 评论(0) 推荐(0) 编辑

2017年6月20日

hdfs文件系统架构详解

摘要： hdfs文件系统架构详解 "官方hdfs分布式介绍" NameNode Namenode负责文件系统的namespace以及客户端文件访问 NameNode负责文件元数据操作，DataNode负责文件内容的处理，跟文件有关的额数据不会经过NameNode NameNode负责安排数据存在那台机器上，阅读全文

posted @ 2017-06-20 17:38 岑忠满阅读(516) 评论(0) 推荐(0) 编辑

Hadoop各种进程的配置文件及其位置说明

摘要： hdfs DameNode core site.xml <! 设置主机的IP和端口 fs.defaultFS hdfs://cen ubuntu:8020 DataNode slaves cen ubuntu SecondaryNameNode hdfs site.xml dfs.namenode. 阅读全文

posted @ 2017-06-20 08:02 岑忠满阅读(1181) 评论(0) 推荐(0) 编辑

成功从来都不是唾手可得的