……

随笔分类 -  大数据之hadoop

hadoop家族:hdfs,hive,mapreduce,sqoop,flume,hbase,oozie
hadoop入门到实战(19)DBeaver - 一款免费开源的通用数据库工具
摘要:在制作《SQL 入门教程》时,接触到了这款非常强大易用的数据库管理和开发工具:DBeaver,也就是上面这个可爱的小河狸。 DBeaver 是一个基于 Java 开发,免费开源的通用数据库管理和开发工具,使用非常友好的 ASL 协议。可以通过官方网站或者 Github 进行下载。 由于 DBeave 阅读全文
posted @ 2020-06-01 09:46 大码王 阅读(2400) 评论(0) 推荐(0) 编辑
hadoop入门到实战(18)优化技巧汇总_通用优化+Linux 优化+HDFS 优化+MapReduce 优化+HBase 优化+内存优化+JVM 优化+Zookeeper 优化
摘要:一、通用优化 1.1、NameNode 的元数据备份使用 SSD 1.2、定时备份 NameNode 上的元数据 建议每小时或者每天备份,如果数据极其重要,可以5~10分钟备份一次。备份可以通过定时任务复制元数据目录即可。 1.3、为 NameNode 指定多个元数据目录 使用 dfs.name.d 阅读全文
posted @ 2020-05-30 20:21 大码王 阅读(224) 评论(0) 推荐(0) 编辑
hadoop入门到实战(17)Oozie从入门到实战
摘要:第1章 Oozie 的简介 Oozie 英文翻译为:驯象人。一个基于工作流引擎的开源框架,由 Cloudera 公司贡献给 Apache,提供对 Hadoop MapReduce、Pig Jobs 的任务调度与协调。Oozie 需要部署到 Java Servlet 容器中运行。主要用于定时调度任务, 阅读全文
posted @ 2020-05-30 20:17 大码王 阅读(421) 评论(0) 推荐(0) 编辑
hadoop入门到实战(16)azkaban从入门到实战
摘要:一 概述 1.1 为什么需要工作流调度系统 1)一个完整的数据分析系统通常都是由大量任务单元组成: shell 脚本程序,java 程序,mapreduce 程序、hive 脚本等。2)各任务单元之间存在时间先后及前后依赖关系。3)为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行 阅读全文
posted @ 2020-05-30 19:09 大码王 阅读(331) 评论(0) 推荐(0) 编辑
hadoop入门到实战(15)Sqoop从入门到实战
摘要:第1章 Sqoop 简介 Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,...) 间进行数据的高校传递,可以将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中 阅读全文
posted @ 2020-05-30 19:07 大码王 阅读(667) 评论(0) 推荐(0) 编辑
hadoop入门到实战(14)Kafka从入门到实战
摘要:第1章 Kafka概述 1.1 消息队列 1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 点对点模型通常是一个基于拉取或者轮询的消息传送模型,这种模型从队列中请求信息,而不是将消息推送到客户端。这个模型的特点是发送到队列的消息被一个且只有一个接收者接收处理,即使有多个消息监听者也是 阅读全文
posted @ 2020-05-30 19:04 大码王 阅读(801) 评论(0) 推荐(0) 编辑
hadoop入门到实战(13)Flume从入门到实战
摘要:第1章 Flume概述 1.1 Flume定义 Flume(水槽) 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 在2009年Flume被捐赠了apache软件基金会,为hadoop相关组件之一。尤其近几年随着flum 阅读全文
posted @ 2020-05-30 18:58 大码王 阅读(858) 评论(0) 推荐(0) 编辑
hadoop入门到实战(12)hive从入门到实战六
摘要:一、知识梳理 1.1、背景表结构 在讲解中我们需要贯串一个例子,所以需要设计一个情景,对应还要有一个表结构和填充数据。如下:有 3 个字段,分别为 personId 标识某一个人,company 标识一家公司名称,money 标识该公司每年盈利收入(单位:万元人民币) 建表并导入数据: create 阅读全文
posted @ 2020-05-30 18:50 大码王 阅读(337) 评论(0) 推荐(0) 编辑
hadoop入门到实战(11)hive从入门到实战五
摘要:第10章 Hive实战之谷粒影音 10.1 需求描述 统计硅谷影音视频网站的常规指标,各种TopN指标: 统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属视频类别以及对应视频类别的个数 统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的 阅读全文
posted @ 2020-05-30 18:46 大码王 阅读(370) 评论(0) 推荐(0) 编辑
hadoop入门到实战(10)hive从入门到实战四
摘要:第8章 压缩和存储(Hive高级) 8.1 Hadoop源码编译支持Snappy压缩 8.1.1 资源准备 1、CentOS联网 配置CentOS能连接外网。Linux虚拟机 ping www.baidu.com 是畅通的。 注意:采用root角色编译,减少文件夹权限出现问题。2、jar包准备(ha 阅读全文
posted @ 2020-05-30 18:44 大码王 阅读(353) 评论(0) 推荐(0) 编辑
hadoop入门到实战(9)hive从入门到实战三
摘要:第6章 查询 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select查询语句语法: [WITH CommonTableExpression (, CommonTableExpression)*] (Note: On 阅读全文
posted @ 2020-05-30 18:42 大码王 阅读(483) 评论(0) 推荐(0) 编辑
hadoop入门到实战(8)hive从入门到实战二
摘要:第4章 DDL数据定义 4.1 创建数据库 1)创建一个数据库,数据库在HDFS上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive; 2)避免要创建的数据库已经存在错误,增加 if not exist 阅读全文
posted @ 2020-05-30 18:39 大码王 阅读(333) 评论(0) 推荐(0) 编辑
hadoop入门到实战(7)hive从入门到实战一
摘要:第1章 Hive入门 1.1 什么是Hive Hive:由Facebook开源用于解决海量结构化日志的数据统计(分析数据的框架)。 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。 本质是:将HQL转化成MapReduce程序。 1)Hive 阅读全文
posted @ 2020-05-30 18:37 大码王 阅读(597) 评论(0) 推荐(0) 编辑
hadoop入门到实战(6)hive常用优化方法总结
摘要:问题导读:1、如何理解列裁剪和分区裁剪?2、sort by代替order by优势在哪里?3、如何调整group by配置?4、如何优化SQL处理join数据倾斜?Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗 阅读全文
posted @ 2020-05-27 16:17 大码王 阅读(612) 评论(0) 推荐(0) 编辑
Hadoop入门到实战(5)sql语句大全(详细)
摘要:数据库操作 查看所有数据库 show databases; 1 查看当前使用的数据库 select database(); 1 创建数据库 create databases 数据库名 charset=utf8; 5.删除数据库 drop database 数据库名 1 6 .使用数据句库 use d 阅读全文
posted @ 2020-05-20 17:56 大码王 阅读(808) 评论(0) 推荐(0) 编辑
hadoop入门到实战(4)Hive知识思维导图
摘要: 阅读全文
posted @ 2020-05-20 17:46 大码王 阅读(357) 评论(0) 推荐(0) 编辑
hadoop入门到实战(3)hive数据仓库入门到实战及面试
摘要:第一章、hive入门 一、hive入门手册 1.什么是数据仓库 1.1数据仓库概念 对历史数据变化的统计,从而支撑企业的决策。比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源。 1.2传统数据仓库面临的挑战 (1)无法满足快速增长的海量数据存储需求 (2)无法有效处理不同类型 阅读全文
posted @ 2020-05-13 16:23 大码王 阅读(2379) 评论(1) 推荐(0) 编辑
hadoop入门到实战(2)hive经典练习题
摘要:一.建表和加载数据 1.student表 create table if not exists student(s_id int,s_name string,s_birth string,s_sex string) row format delimited fields terminated by 阅读全文
posted @ 2020-05-07 23:22 大码王 阅读(456) 评论(0) 推荐(0) 编辑
hadoop入门到实战(1)hive优化总结
摘要:1. 概述 1.1 hive的特征: 可以通过SQL轻松访问数据的工具,从而实现数据仓库任务,如提取/转换/加载(ETL),报告和数据分析; 它可以使已经存储的数据结构化; 可以直接访问存储在Apache HDFS或其他数据存储系统(如Apache HBase)中的文件; Hive除了支持MapRe 阅读全文
posted @ 2020-05-07 11:06 大码王 阅读(666) 评论(0) 推荐(0) 编辑

复制代码