随笔分类 - hadoop
摘要:转载自 HiveSQL常用优化方法全面总结 Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveQL语句本身的优化,也包含Hi
阅读全文
摘要:转载自 Zookeeper超详细的面试题 1.ZooKeeper是什么? ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,它是集群的管理者,监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终,将简单易用的接口和性能高效
阅读全文
摘要:一、安装条件前置 实验zookeeper安装在【Hadoop入门(二)集群安装】机器上,已完成安装jdk,hadoop和ssh配置环境等。 zookeeper所依赖的虚拟机和操作系统配置 环境:ubuntu14 + apache-zookeeper-3.5.6-bin.tar + jdk1.8+ss
阅读全文
摘要:一、创建表 语法: create [temporary] [external] table [if not exists] [db_name.] table_name [(col_name data_type [comment col_comment], ...)] [comment table_c
阅读全文
摘要:(1)查看数据库 show databases; (2)使用数据库 use db; (3)查看当前数据库 #与mysql的select database();不一样 select current_database(); (4)创建数据库 create database [if not exists]
阅读全文
摘要:一、原始类型 类型描述字面量示例BOOLEANtrue/falseTRUETINYINT1字节的有符号整数 -128~12710MALLINT2个字节的有符号整数,-32768~3276720000INT4个字节的带符号整数1000000BIGINT8字节带符号整数13LFLOAT4字节单精度浮点数
阅读全文
摘要:一、flume下载地址 列中的链接应显示可用镜像的列表,并根据您的推断位置进行默认选择。如果看不到该页面,请尝试使用其他浏览器。校验和和签名是主分发服务器上原始文件的链接。 Apache Flume二进制文件(tar.gz)apache-flume-1.9.0-bin.tar.gzapache-fl
阅读全文
摘要:一、概述 Apache Flume是一个分布式,可靠且可用的系统,用于有效地收集,聚合大量日志数据并将其从许多不同的源移动到集中式数据存储中。 Apache Flume的使用不仅限于日志数据聚合。由于数据源是可定制的,因此Flume可用于传输大量事件数据,包括但不限于网络流量数据,社交媒体生成的数据
阅读全文
摘要:转载自 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient hive初始化(mysql为元数据库)完成后,执行SQL语句报错 经过各种查询资料,找到了一种解决办法,大家可以参考。 首先
阅读全文
摘要:一、表 创建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name CREATE TABLE 创建一个指定名字的表。Hive 创建内部表时,会将数据移动到数据仓库指向的路径; EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向
阅读全文
摘要:一、安装模式 内嵌模式:元数据保持在内嵌的Derby模式,只允许一个会话连接 本地独立模式:在本地安装Mysql,把元数据放到Mysql内 远程模式:元数据放置在远程的Mysql数据库 官方文档: https://cwiki.apache.org/confluence/display/Hive/Ge
阅读全文
摘要:一、Hive是什么 起源自facebook由Jeff Hammerbacher领导的团队,构建在Hadoop上的数据仓库框架。设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据。2008年facebook把hive项目贡献给Apache。 由facebook开源,最初用于解决海量
阅读全文
摘要:一、简介 求TopK是算法中最常使用到的,现在使用Mapreduce在海量数据中统计数据的求TopK。 二、例子 (1)实例描述 给出三个文件,每个文件中都存储了若干个数值,求所有数值中的求Top 5。 样例输入: 1)file1: 1 2 3 7 9 -99 2 2)file2: 11 2 23
阅读全文
摘要:一、简介 在文件中统计出现最多个数的单词,将其输出到hdfs文件上。 二、例子 (1)实例描述 给出三个文件,每个文件中都若干个单词以空白符分隔,需要统计出现最多的单词 样例输入: 1)file1: MapReduce is simple 2)file2: MapReduce is powerful
阅读全文
摘要:一、简介 求平均值是统计中最常使用到的,现在使用Mapreduce在海量数据中统计数据的求平均值。 二、例子 (1)实例描述 给出三个文件,每个文件中都存储了若干个数值,求所有数值中的求平均值。 样例输入: 1)file1: 1 2 3 7 9 -99 2 2)file2: 11 2 23 17 9
阅读全文
摘要:一、简介 求和是统计中最常使用到的,现在使用Mapreduce在海量数据中统计数据的求和。 二、例子 (1)实例描述 给出三个文件,每个文件中都存储了若干个数值,求所有数值中的求和。 样例输入: 1)file1: 1 2 3 7 9 -99 2 2)file2: 11 2 23 17 9 199 2
阅读全文
摘要:一、简介 最小值是统计中最常使用到的,现在使用Mapreduce在海量数据中统计数据的最小值。 二、例子 (1)实例描述 给出三个文件,每个文件中都存储了若干个数值,求所有数值中的最小值。 样例输入: 1)file1: 1 2 3 7 9 -99 2 2)file2: 11 2 23 17 9 19
阅读全文
摘要:一、简介 最大值是统计中最常使用到的,现在使用Mapreduce在海量数据中统计数据的最大值。 二、例子 (1)实例描述 给出三个文件,每个文件中都存储了若干个数值,求所有数值中的最大值。 样例输入: 1)file1: 1 2 3 7 9 -99 2 2)file2: 11 2 23 17 9 19
阅读全文
摘要:一、简介 "倒排索引"是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Inde
阅读全文
摘要:多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息 1 实例描述 输入是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系,输出"工厂名——地址名"表 样例输入如下所示: 1)f
阅读全文