摘要: 说明:使用 shell action 执行 shell 脚本 hive select test.sh 来通过已经配置好的 Hive f 来执行 HQL 查询脚本文件 select.sql 1.创建脚本文件 hive select test.sh !/bin/sh /opt/cdh5.3.6/hive 阅读全文
posted @ 2017-07-29 00:16 岑忠满 阅读(4212) 评论(0) 推荐(0) 编辑
摘要: 1.创建 lib 目录并拷贝 mysql 支持包 2.修改 job.properties 文件 nameNode=hdfs://cen ubuntu.cenzhongman.com:8020 jobTracker=localhost:8032 queueName=default oozieAppsR 阅读全文
posted @ 2017-07-28 18:44 岑忠满 阅读(2643) 评论(0) 推荐(0) 编辑
摘要: 1.编辑job.propertiers nameNode=hdfs://cen ubuntu.cenzhongman.com:8020 jobTracker=localhost:8032 queueName=default oozieAppsRoot=oozie apps oozie.use.sys 阅读全文
posted @ 2017-07-28 00:10 岑忠满 阅读(2120) 评论(0) 推荐(0) 编辑
摘要: 一、定义 基本概念 Action: An execution/computation task (Map Reduce job, Pig job, a shell command). It can also be referred as task or 'action node'. 》》》》Acti 阅读全文
posted @ 2017-07-27 16:41 岑忠满 阅读(763) 评论(0) 推荐(0) 编辑
摘要: "参考文档" 一、Building OOzie 特别注意的是修改Pom.xml文件中的版本与本机中安装的版本相同 二、 install Oozie 1.为 hadoop 添加 Oozie 的代理用户,添加如下配置到 hadoop 的 core site.xml 中(需Hadoop读取之后才会生效) 阅读全文
posted @ 2017-07-24 22:51 岑忠满 阅读(1304) 评论(0) 推荐(0) 编辑
摘要: Apache Oozie Workflow Scheduler for Hadoop Oozie is a workflow scheduler system to manage Apache Hadoop jobs. Oozie 是一个工作流调度系统用来管理 Hadoop 任务 工作流调度:工作流 阅读全文
posted @ 2017-07-24 15:56 岑忠满 阅读(11768) 评论(0) 推荐(1) 编辑
摘要: "Flume官方文档" Usage: bin/flume ng [options]... commands: help display this help text agent run a Flume agent global options: conf, c use configs in dire 阅读全文
posted @ 2017-07-23 22:48 岑忠满 阅读(2578) 评论(0) 推荐(0) 编辑
摘要: 来自服务器大型 RDBMS 的数据通过 Sqoop 工具导入 HDFS/HBase 来自服务器的日志文件通过 Flume 工具导入 HDFS/HBase 数据通过 MapReduce 程序 ,Hive/pig/impala(一个类似 hive 的内存计算框架) 工具进行数据分析,并使用 Oozie/ 阅读全文
posted @ 2017-07-23 21:57 岑忠满 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 分布式流式实时收集日志文件系统,便于实时在线的流式计算,常配合 Storm 和 spark streming 使用。 Flume is a distributed 分布式的, reliable 可靠的, and available 可用的 service for efficiently高效 coll 阅读全文
posted @ 2017-07-23 11:39 岑忠满 阅读(662) 评论(0) 推荐(0) 编辑
摘要: 工具 VMWare Workstation 12 U盘 装好windows的电脑 ubuntu iso文件 UltraISO 软件 目的 安装虚拟机和双系统仅占用一次空间,且运行效率更高(个人感觉),文件自动同步! 安装双系统 一、使用 UltraISO 制作 ubuntu 启动盘 二、重启电脑,打 阅读全文
posted @ 2017-07-22 22:24 岑忠满 阅读(12261) 评论(0) 推荐(0) 编辑
摘要: Sqoop 是什么及安装 "Hadoop sqoop" Apache sqoop (SQL to Hadoop) Sqoop is a tool designed to transfer data between Hadoop and relational databases or mainfram 阅读全文
posted @ 2017-07-21 12:37 岑忠满 阅读(1212) 评论(0) 推荐(0) 编辑
摘要: 将/etc/mysql/my.cnf中的bind_address那一行注释掉或修改为“bind_address=0.0.0.0”: bind_address并没有在/etc/mysql/my.cnf文件中,这个文件除去注释只有如下两行内容: !includedir /etc/mysql/conf.d 阅读全文
posted @ 2017-07-20 11:35 岑忠满 阅读(684) 评论(0) 推荐(0) 编辑
摘要: "来自官方文档" 一、写 python 脚本: import sys import datetime for line in sys.stdin: line = line.strip() userid, movieid, rating, unixtime = line.split('\t') wee 阅读全文
posted @ 2017-07-19 16:10 岑忠满 阅读(1170) 评论(0) 推荐(0) 编辑
摘要: 需求 remote_addr 用户IP 1.用于根据地址确认区域 2.用于统计来自同一个(外网)用户的访问数量 time_local 用户访问时间 1.分析用户访问时间段 2.合理安排客服上班时间 request 用户请求的URL 1.统计用户最感兴趣的内容 2.用户最容易发现的区域/内容 http 阅读全文
posted @ 2017-07-19 16:10 岑忠满 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 优化 数据优化 一、从大表拆分成小表(更快地检索) 引用: "Hive LanguageManual DDL" eg2:常用于分表 create table if not exists default.cenzhongman_2 AS select ip,date from default.cenz 阅读全文
posted @ 2017-07-18 10:05 岑忠满 阅读(283) 评论(0) 推荐(0) 编辑
摘要: "SerDe" 按行存储 按列存储 file_format: : | SEQUENCEFILE 序列化(行存储) | TEXTFILE 文本格式(行存储) (Default, depending on hive.default.fileformat configuration) | RCFILE 列 阅读全文
posted @ 2017-07-17 20:26 岑忠满 阅读(4338) 评论(0) 推荐(0) 编辑
摘要: 一、下载源码并解压 二、检查以下几项 必须有网络!!! JDK 1.7+ "安装方法" java version Maven 3.0 or later "安装方法" mvn version Findbugs 1.3.9,需要解压到/usr/share/目录下,并添加环境变量 "安装方法" Proto 阅读全文
posted @ 2017-07-17 18:18 岑忠满 阅读(375) 评论(0) 推荐(0) 编辑
摘要: Mapreducwe 执行流程 :input map shuffle reduce output 压缩执行时间,map 之后,压缩,数据存储在本地磁盘,减少磁盘IO,减少网络带宽。 1.常见压缩技术 压缩格式 bzip2 gzip lzo snappy 压缩比 bzip2 gzip lzo | sn 阅读全文
posted @ 2017-07-15 23:46 岑忠满 阅读(517) 评论(0) 推荐(0) 编辑
摘要: "HiveServer2" 一、启动 Hiveserver2 一个Server 二、连接HiveServer2 1.通过启动 Beeline 一个Client 1.1从 Beeline 通过 JDBC 连接 Hiveserver2 !connect jdbc:hive2://hostname ubu 阅读全文
posted @ 2017-07-15 22:31 岑忠满 阅读(451) 评论(0) 推荐(0) 编辑
摘要: "LanguageManual UDF" 一、分类 UDF:User defined function 用户定义函数 一进一出 UDAF:User defined aggregation function 聚类函数:多进一出 如:max min count UDTF:User definesd ta 阅读全文
posted @ 2017-07-15 15:00 岑忠满 阅读(315) 评论(0) 推荐(0) 编辑
摘要: "Tutorial LoadingData" Hive加载数据的6种方式 格式 load data [local] inpath '/op/datas/xxx.txt' [overwrite] into table tablename [partition (partcol1 = val1,part 阅读全文
posted @ 2017-07-14 15:46 岑忠满 阅读(657) 评论(0) 推荐(0) 编辑
摘要: "hive语法规则LanguageManual DDL" SQL DML 和 DDL 数据操作语言 (DML) 和 数据定义语言 (DDL) 一、数据库 增删改都在文档里说得也很明白,不重复造车轮 二、表 1.创建table重点解析如下 Create Table eg1:基础创建方式 create 阅读全文
posted @ 2017-07-13 21:38 岑忠满 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 伪分布式 一、安装及配置Hive 1.配置HADOOP_HOME和Hive conf 目录hive env.sh Set HADOOP_HOME to point to a specific hadoop install directory HADOOP_HOME=/opt/softwares/ha 阅读全文
posted @ 2017-07-13 17:53 岑忠满 阅读(772) 评论(0) 推荐(0) 编辑
摘要: Hive用于对数据进行ETL(extract/tranform/load) 1.load file data to database E 2.使用select / python 进行转换 T 3.数据转换后在sub表中 L "Hive官方网站" "Gettingstarted" The Apache 阅读全文
posted @ 2017-07-12 11:28 岑忠满 阅读(386) 评论(0) 推荐(0) 编辑
摘要: "apache" 提供基础版本 "cloudera" 主要是修改Hadoop,提供更加稳定的发行版本,以及可视化的管理服务,主要产品如下: CDH:Cloudera Distributed Hadoop Cloudera Manager 集群分发管理监控平台 Cloudera Support "Ho 阅读全文
posted @ 2017-07-10 17:14 岑忠满 阅读(745) 评论(0) 推荐(0) 编辑
摘要: HDFS HA "HDFS HA(High Availability)高可用性" 相同版本拷贝工具,分布式集群拷贝工具,使用MapReduce实现 "DistCp Version2 Guide" HFTP协议,用于不同版本Hadoop拷贝 For example, you can do things 阅读全文
posted @ 2017-07-10 14:00 岑忠满 阅读(285) 评论(0) 推荐(0) 编辑
摘要: HDFS HA(High Availability)高可用性 参考文献: "官方文档" "全文翻译" "Hadoop组件之 HDFS(HA实现细节)" 这张图片的个人理解 由于NameNode在Hadoop1只有一个节点,可能存在(SPOF)single point of file单节点故障。包括机 阅读全文
posted @ 2017-07-09 18:33 岑忠满 阅读(556) 评论(0) 推荐(0) 编辑
摘要: 伪分布式安装 1.下载ZooKeeper 2.创建数据文件目录 $ mkdir p data/zkData 3.编辑配置文件 $ vim conf/zoo.cfg dataDir=/opt/softwares/zookeeper 3.4.9/data/zkData 4.启动ZookeeperServ 阅读全文
posted @ 2017-07-09 16:34 岑忠满 阅读(175) 评论(0) 推荐(0) 编辑
摘要: "官方文档" ZooKeeper: A Distributed Coordination Service for Distributed Applications ZooKeeper:一个开源的分布式的,为分布式应用提供协调服务的应用 ZooKeeper is a distributed, open 阅读全文
posted @ 2017-07-09 15:36 岑忠满 阅读(351) 评论(0) 推荐(0) 编辑
摘要: 1.安装ntp服务 $ sudo apt get install ntp 2.修改配置文件 参考 "配置NTP服务ntpd/ntp.conf(搭建Hadoop集群可参考)" $ vim /etc/ntp.conf 配置客户端的授权,也就是给指定的机器(客户端)设置访问NTP Server的权限,这是 阅读全文
posted @ 2017-07-09 13:53 岑忠满 阅读(2109) 评论(0) 推荐(0) 编辑
摘要: Hadoop生态系统图解 " " 什么是Hadoo " " hdfs文件系统架构详解 " " YARN框架详解 " " MapReduce执行流程及程序编写 " " Hadoop本地安装 " " 安装配置文件解析 " " Hadoop三种启动方式 " " Hadoop开发 " " Maven搭建Ha 阅读全文
posted @ 2017-07-09 11:36 岑忠满 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 组建分布: hadoop senior hadoop senior02 hadoop senior03 HDFS NameNode DataNode DataNode DataNode SecondaryNameNode YARN ResourceManager NodeManager NodeMa 阅读全文
posted @ 2017-07-08 21:25 岑忠满 阅读(533) 评论(0) 推荐(0) 编辑
摘要: 1、查看主机名 在Ubuntu系统中,快速查看主机名有多种方法: 其一,打开一个GNOME终端窗口,在命令提示符中可以看到主机名,主机名通常位于“@”符号后; 其二,在终端窗口中输入命令:hostname或uname –n,均可以查看到当前主机的主机名。 2、临时修改主机名 命令行下运行命令:“ho 阅读全文
posted @ 2017-07-08 12:04 岑忠满 阅读(468) 评论(0) 推荐(0) 编辑
摘要: 数据类型(都实现了Writable接口) BooleanWritable 布尔类型 ByteWritable 单字节数值 DoubleWritable 双字节数值 FloatWritable 浮点数 IntWritable 整型数 LongWritable 长整型 Text UTF 8格式存储的文本 阅读全文
posted @ 2017-07-07 20:00 岑忠满 阅读(1710) 评论(0) 推荐(0) 编辑
摘要: MapReduce 一种分布式计算模型,解决海量数据的计算问题,MapReduce将计算过程抽象成两个函数 Map(映射):对一些独立元素(拆分后的小块)组成的列表的每一个元素进行指定的操作,可以高度并行。 Reduce(化简):对一个列表的元素进行合并 input map reduce outpu 阅读全文
posted @ 2017-07-06 20:03 岑忠满 阅读(1963) 评论(0) 推荐(0) 编辑
摘要: YARN框架详解 "YARN官方解释" YARN是什么 The fundamental(定义) idea of YARN is to split(分开) up the functionalities(功能) of resource management and job scheduling/moni 阅读全文
posted @ 2017-07-06 11:18 岑忠满 阅读(471) 评论(0) 推荐(0) 编辑
摘要: 需要注意以下几点 1.所以的包都是org.apache.hadoop.XXX 2.三个配置文件要放到指定文件夹中等待文件系统读取(src/main/resources):core site.xml hdfs site.xml log4j.properties 3.文件路径指向要正确 package 阅读全文
posted @ 2017-06-29 19:22 岑忠满 阅读(1485) 评论(0) 推荐(0) 编辑
摘要: 1.安装maven(用于管理仓库,jar包的管理) 1.解压maven安装包 2.把maven添加到环境变量/etc/profile 3.添加maven目录下的conf/setting.xml文件到~/.m2文件夹下 2.安装eclipse 1.解压eclipse安装文件 2.执行eclipse.i 阅读全文
posted @ 2017-06-29 11:49 岑忠满 阅读(10508) 评论(0) 推荐(0) 编辑
摘要: hdfs文件系统架构详解 "官方hdfs分布式介绍" NameNode Namenode负责文件系统的namespace以及客户端文件访问 NameNode负责文件元数据操作,DataNode负责文件内容的处理,跟文件有关的额数据不会经过NameNode NameNode负责安排数据存在那台机器上, 阅读全文
posted @ 2017-06-20 17:38 岑忠满 阅读(516) 评论(0) 推荐(0) 编辑
摘要: hdfs DameNode core site.xml <! 设置主机的IP和端口 fs.defaultFS hdfs://cen ubuntu:8020 DataNode slaves cen ubuntu SecondaryNameNode hdfs site.xml dfs.namenode. 阅读全文
posted @ 2017-06-20 08:02 岑忠满 阅读(1181) 评论(0) 推荐(0) 编辑