大数据学习 - 随笔分类(第3页) - o_0的园子

摘要：ABC三个hive表每个表中都只有一列int类型且列名相同，求三个表中互不重复的数 sql：运行结果： sql: 阅读全文

posted @ 2019-02-16 21:23 o_0的园子阅读(2576) 评论(0) 推荐(0)

摘要：1. Hbase基础 1.1 hbase数据库介绍 1、简介 hbase是bigtable的开源java版本。是建立在hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅阅读全文

posted @ 2019-01-28 16:40 o_0的园子阅读(392) 评论(0) 推荐(0)

大数据学习——azkaban工作流调度系统

摘要：azkaban的安装部署在/root/apps 1目录下新建azkaban文件夹上传安装包到azkaban 2解压 3删掉安装包 4重命名 5修改配置文件登录mysql数据库创建azkaban数据库；修改conf下的azkaban.properties 修改时区为亚洲上海注：先配置好服务阅读全文

posted @ 2019-01-23 21:31 o_0的园子阅读(577) 评论(0) 推荐(0)

sqoop导数据出现问题

摘要：执行下面命令的时候报错 ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user 'root'@'mini1' (using password: YES) 这个阅读全文

posted @ 2019-01-23 19:52 o_0的园子阅读(1176) 评论(1) 推荐(0)

大数据学习——sqoop导出数据

摘要：把数据从hadoop导出到关系型数据库将数据从HDFS导出到RDBMS数据库导出前，目标表必须存在于目标数据库中。 u 默认操作是从将文件中的数据使用INSERT语句插入到表中 u 更新模式下，是生成UPDATE语句更新表数据语法以下是export命令语法。 $ sqoop export ( 阅读全文

posted @ 2019-01-23 15:00 o_0的园子阅读(484) 评论(0) 推荐(0)

大数据学习——sqoop导入数据

摘要：把数据从关系型数据库导入到hadoop 启动sqoop 导入表表数据到HDFS 下面的命令用于从MySQL数据库服务器中的emp表导入HDFS。在/root/sqoop下执行命令，导入emp表到hdfs 在/root/sqoop下执行命令，导入emp_add表到hdfs 执行完命令会生成 emp_ 阅读全文

posted @ 2019-01-23 14:59 o_0的园子阅读(1165) 评论(0) 推荐(0)

大数据学习——sqoop安装

摘要：1上传 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2解压 3重命名设置环境变量 4修改配置文件 5上传mysql驱动包到/root/apps/sqoop/lib目录下 6启动sqoop 启动完成阅读全文

posted @ 2019-01-23 14:57 o_0的园子阅读(191) 评论(0) 推荐(0)

大数据学习——sqoop入门

摘要：下载地址 https://pan.baidu.com/s/1qWDl29L9I_KVU54c0ioNfQ fvfh 3.1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HB 阅读全文

posted @ 2019-01-23 14:19 o_0的园子阅读(481) 评论(0) 推荐(0)

大数据学习——flume日志分类采集汇总

摘要：1. 案例场景 A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log 现在要求：把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。但是在hdfs中要求的目录为： /source/ 阅读全文

posted @ 2019-01-22 22:52 o_0的园子阅读(1203) 评论(0) 推荐(1)

大数据学习——高可用配置案例

摘要：在完成单点的Flume NG搭建后，下面我们搭建一个高可用的Flume NG集群，架构图如下所示：（1）节点分配 Flume的Agent和Collector分布如下表所示：名称 Ip地址 Host 角色 Agent1 192.168.200.101 Itcast01 WebServer Coll 阅读全文

posted @ 2019-01-22 22:38 o_0的园子阅读(467) 评论(0) 推荐(0)

大数据学习——实现多agent的串联，收集数据到HDFS中

摘要：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联根据需求，首先定义以下3大要素第一台flume agent l 采集源，即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标阅读全文

posted @ 2019-01-22 22:23 o_0的园子阅读(607) 评论(0) 推荐(0)

大数据学习——flume拦截器

摘要：flume 拦截器(interceptor)1、flume拦截器介绍拦截器是简单的插件式组件，设置在source和channel之间。source接收到的事件event，在写入channel之前，拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。阅读全文

posted @ 2019-01-22 21:13 o_0的园子阅读(3732) 评论(0) 推荐(0)

大数据学习——采集文件到HDFS

摘要：采集需求：比如业务系统使用log4j生成的日志，日志内容不断增加，需要把追加到日志文件中的数据实时采集到hdfs 根据需求，首先定义以下3大要素 l 采集源，即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标，即sink——HDFS文件系统 : hdfs s 阅读全文

posted @ 2019-01-22 20:44 o_0的园子阅读(1112) 评论(0) 推荐(0)

大数据学习——采集目录到HDFS

摘要：采集需求：某服务器的某特定目录下，会不断产生新的文件，每当有新文件出现，就需要把文件采集到HDFS中去根据需求，首先定义以下3大要素 l 采集源，即source——监控文件目录 : spooldir l 下沉目标，即sink——HDFS文件系统 : hdfs sink l source和sink之阅读全文

posted @ 2019-01-21 21:25 o_0的园子阅读(584) 评论(0) 推荐(0)

大数据学习——flume安装部署

摘要：1.Flume的安装非常简单，只需要解压即可，当然，前提是已有hadoop环境上传安装包到数据源所在节点上然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz 2. 测试小案例 1 在 flume的conf文件下建一个文件 vi netcat-logger.c 阅读全文

posted @ 2019-01-18 21:34 o_0的园子阅读(215) 评论(0) 推荐(0)

大数据学习——面试用sql——累计报表

摘要：create table t_access_times(username string,month string,salary int)row format delimited fields terminated by ','; load data local inpath '/root/hived 阅读全文

posted @ 2019-01-18 21:09 o_0的园子阅读(402) 评论(0) 推荐(0)

大数据学习——hive数据类型

摘要：1. hive的数据类型Hive的内置数据类型可以分为两大类：(1)、基础数据类型；(2)、复杂数据类型2. hive基本数据类型基础数据类型包括：TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DEC 阅读全文

posted @ 2019-01-17 22:14 o_0的园子阅读(6813) 评论(0) 推荐(1)

大数据学习——关于hive中的各种join

摘要：inner join 只打印能匹配上的数据，没有匹配上的不输出 left join right join full outer join left outer join left semi join 相当于 select * from a where a.id exists(select b.id 阅读全文

posted @ 2019-01-17 22:07 o_0的园子阅读(536) 评论(0) 推荐(0)

大数据学习——hive的sql练习

摘要：1新建一个数据库 2创建一个外部表 3添加数据 vi student.txt 4 查询 5 group by分组 6 cluster by 分区，排序 7 sort by 8 桶表桶表添加数据时不能通过load的形式， #指定开启分桶set hive.enforce.bucketing = tru 阅读全文

posted @ 2019-01-17 18:06 o_0的园子阅读(3198) 评论(0) 推荐(0)

大数据学习——hive显示命令

摘要：2 DML操作 load overwrite like insert 3 multi insert 多重插入 4 Dynamic partition inserts 动态分区插入 5 自动分区模式 set hive.exec.dynamic.partition.mode=nonstrict; 阅读全文

posted @ 2019-01-16 16:08 o_0的园子阅读(516) 评论(0) 推荐(0)

随笔分类 - 大数据学习