随笔分类 -  大数据学习

上一页 1 2 3 4 5 6 下一页
大数据学习——hive的sql练习题
摘要:ABC三个hive表 每个表中都只有一列int类型且列名相同,求三个表中互不重复的数 sql: 运行结果: sql: 阅读全文
posted @ 2019-02-16 21:23 o_0的园子 阅读(2576) 评论(0) 推荐(0)
大数据学习——Hbase
摘要:1. Hbase基础 1.1 hbase数据库介绍 1、简介 hbase是bigtable的开源java版本。是建立在hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写nosql的数据库系统。 它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅 阅读全文
posted @ 2019-01-28 16:40 o_0的园子 阅读(392) 评论(0) 推荐(0)
大数据学习——azkaban工作流调度系统
摘要:azkaban的安装部署 在/root/apps 1目录下新建azkaban文件夹 上传安装包到azkaban 2解压 3删掉安装包 4重命名 5修改配置文件 登录mysql数据库 创建azkaban数据库; 修改conf下的azkaban.properties 修改时区为亚洲上海 注:先配置好服务 阅读全文
posted @ 2019-01-23 21:31 o_0的园子 阅读(577) 评论(0) 推荐(0)
sqoop导数据出现问题
摘要:执行下面命令的时候报错 ERROR manager.SqlManager: Error executing statement: java.sql.SQLException: Access denied for user 'root'@'mini1' (using password: YES) 这个 阅读全文
posted @ 2019-01-23 19:52 o_0的园子 阅读(1176) 评论(1) 推荐(0)
大数据学习——sqoop导出数据
摘要:把数据从hadoop导出到关系型数据库 将数据从HDFS导出到RDBMS数据库 导出前,目标表必须存在于目标数据库中。 u 默认操作是从将文件中的数据使用INSERT语句插入到表中 u 更新模式下,是生成UPDATE语句更新表数据 语法 以下是export命令语法。 $ sqoop export ( 阅读全文
posted @ 2019-01-23 15:00 o_0的园子 阅读(484) 评论(0) 推荐(0)
大数据学习——sqoop导入数据
摘要:把数据从关系型数据库导入到hadoop 启动sqoop 导入表表数据到HDFS 下面的命令用于从MySQL数据库服务器中的emp表导入HDFS。 在/root/sqoop下执行命令,导入emp表到hdfs 在/root/sqoop下执行命令,导入emp_add表到hdfs 执行完命令会生成 emp_ 阅读全文
posted @ 2019-01-23 14:59 o_0的园子 阅读(1165) 评论(0) 推荐(0)
大数据学习——sqoop安装
摘要:1上传 sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2解压 3重命名 设置环境变量 4修改配置文件 5上传mysql驱动包到/root/apps/sqoop/lib目录下 6启动sqoop 启动完成 阅读全文
posted @ 2019-01-23 14:57 o_0的园子 阅读(191) 评论(0) 推荐(0)
大数据学习——sqoop入门
摘要:下载地址 https://pan.baidu.com/s/1qWDl29L9I_KVU54c0ioNfQ fvfh 3.1 概述 sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HB 阅读全文
posted @ 2019-01-23 14:19 o_0的园子 阅读(481) 评论(0) 推荐(0)
大数据学习——flume日志分类采集汇总
摘要:1. 案例场景 A、B两台日志服务机器实时生产日志主要类型为access.log、nginx.log、web.log 现在要求: 把A、B 机器中的access.log、nginx.log、web.log 采集汇总到C机器上然后统一收集到hdfs中。 但是在hdfs中要求的目录为: /source/ 阅读全文
posted @ 2019-01-22 22:52 o_0的园子 阅读(1203) 评论(0) 推荐(1)
大数据学习——高可用配置案例
摘要:在完成单点的Flume NG搭建后,下面我们搭建一个高可用的Flume NG集群,架构图如下所示: (1)节点分配 Flume的Agent和Collector分布如下表所示: 名称 Ip地址 Host 角色 Agent1 192.168.200.101 Itcast01 WebServer Coll 阅读全文
posted @ 2019-01-22 22:38 o_0的园子 阅读(467) 评论(0) 推荐(0)
大数据学习——实现多agent的串联,收集数据到HDFS中
摘要:采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs,使用agent串联 根据需求,首先定义以下3大要素 第一台flume agent l 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标 阅读全文
posted @ 2019-01-22 22:23 o_0的园子 阅读(607) 评论(0) 推荐(0)
大数据学习——flume拦截器
摘要:flume 拦截器(interceptor)1、flume拦截器介绍拦截器是简单的插件式组件,设置在source和channel之间。source接收到的事件event,在写入channel之前,拦截器都可以进行转换或者删除这些事件。每个拦截器只处理同一个source接收到的事件。可以自定义拦截器。 阅读全文
posted @ 2019-01-22 21:13 o_0的园子 阅读(3732) 评论(0) 推荐(0)
大数据学习——采集文件到HDFS
摘要:采集需求:比如业务系统使用log4j生成的日志,日志内容不断增加,需要把追加到日志文件中的数据实时采集到hdfs 根据需求,首先定义以下3大要素 l 采集源,即source——监控文件内容更新 : exec ‘tail -F file’ l 下沉目标,即sink——HDFS文件系统 : hdfs s 阅读全文
posted @ 2019-01-22 20:44 o_0的园子 阅读(1112) 评论(0) 推荐(0)
大数据学习——采集目录到HDFS
摘要:采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去 根据需求,首先定义以下3大要素 l 采集源,即source——监控文件目录 : spooldir l 下沉目标,即sink——HDFS文件系统 : hdfs sink l source和sink之 阅读全文
posted @ 2019-01-21 21:25 o_0的园子 阅读(584) 评论(0) 推荐(0)
大数据学习——flume安装部署
摘要:1.Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境 上传安装包到数据源所在节点上 然后解压 tar -zxvf apache-flume-1.6.0-bin.tar.gz 2. 测试小案例 1 在 flume的conf文件下建一个文件 vi netcat-logger.c 阅读全文
posted @ 2019-01-18 21:34 o_0的园子 阅读(215) 评论(0) 推荐(0)
大数据学习——面试用sql——累计报表
摘要:create table t_access_times(username string,month string,salary int)row format delimited fields terminated by ','; load data local inpath '/root/hived 阅读全文
posted @ 2019-01-18 21:09 o_0的园子 阅读(402) 评论(0) 推荐(0)
大数据学习——hive数据类型
摘要:1. hive的数据类型Hive的内置数据类型可以分为两大类:(1)、基础数据类型;(2)、复杂数据类型2. hive基本数据类型基础数据类型包括:TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY,TIMESTAMP,DEC 阅读全文
posted @ 2019-01-17 22:14 o_0的园子 阅读(6813) 评论(0) 推荐(1)
大数据学习——关于hive中的各种join
摘要:inner join 只打印能匹配上的数据,没有匹配上的不输出 left join right join full outer join left outer join left semi join 相当于 select * from a where a.id exists(select b.id 阅读全文
posted @ 2019-01-17 22:07 o_0的园子 阅读(536) 评论(0) 推荐(0)
大数据学习——hive的sql练习
摘要:1新建一个数据库 2创建一个外部表 3添加数据 vi student.txt 4 查询 5 group by分组 6 cluster by 分区,排序 7 sort by 8 桶表 桶表添加数据时不能通过load的形式, #指定开启分桶set hive.enforce.bucketing = tru 阅读全文
posted @ 2019-01-17 18:06 o_0的园子 阅读(3198) 评论(0) 推荐(0)
大数据学习——hive显示命令
摘要:2 DML操作 load overwrite like insert 3 multi insert 多重插入 4 Dynamic partition inserts 动态分区插入 5 自动分区模式 set hive.exec.dynamic.partition.mode=nonstrict; 阅读全文
posted @ 2019-01-16 16:08 o_0的园子 阅读(516) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 下一页