随笔分类 - 9.2.Hive
摘要:Hive优化 要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有
阅读全文
摘要:注:Hive面试题:累积报表 数据文件: 有如下访客访问次数统计表 t_access_times 需要输出报表:t_access_times_accumulate 实现步骤: 创建表,并将数据加载到表中: 1、第一步,先求每个用户的月总金额 2、第二步,将月总金额表 自己连接自己 3、第三步,从上一
阅读全文
摘要:1.需求:将Json格式的数据处理后插入新表中 数据文件如下:rating.json,文件格式:{"movie":"2858","rate":"5","timeStamp":"978159467","uid":"17"} 实现步骤: 1.使用Hive创建原始表rate_json,并将rating.j
阅读全文
摘要:Hive官方的UDF手册地址是:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.使用内置函数的快捷方法: 创建一个表dual,load数据到dual表,然后尝试内置函数 1.Hive自定义函数: 当Hive提
阅读全文
摘要:1.用户行为分析 用户行为分析,是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律, 并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营 销策略提供依据。这是狭义的只指网络上的用户行为分析 意义:通过对
阅读全文
摘要:1.关于hive中的各种join Hive中有许多的Join操作,例如:LEFT、RIGHT和FULL OUTER JOIN,INNER JOIN,LEFT SEMI JOIN等; 1.1.准备两组数据: 1.2.在Hive中建表: 1.3.在Hive表中导入数据: 1.4.inner join内连
阅读全文
摘要:1.将查询结果插入Hive表语法结构: 1.1.基本模式插入: INSERT OVERWRITE TABLE tablename1 [PARTITION (partcol1=val1, partcol2=val2 ...)] select_statement1 FROM from_statement
阅读全文
摘要:1.Clustered By 对于每一个表(table)或者分区, Hive可以进一步组织成桶,也就是说桶是更为细粒度的数据范围划分。 Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在 哪个桶当中。 把表(或者分区)组织成桶(Bucket)有两
阅读全文
摘要:2.1.创建分区表并将本地文件的数据加载到分区表: 使用下面的命令来创建一个带分区的表 通过partitioned by(country string)关键字声明该表是分区表,且分区字段不能为create table时存在的字段。此 时只能说指定了这个表会分区,但是具体数据有哪些分区则会在导入数据时
阅读全文
摘要:1.Hive基本操作: 1.1.Hive的建表语句: 参数说明: CREATE TABLE:创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXISTS 选项来忽略这个异常 EXTERNAL:关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径
阅读全文
摘要:之前使用的Shell方式只是Hive交互方式中的一种,还有一种就是将Hive启动为服务运行在一个节点上,那么剩下的节点 就可以使用客户端来连接它,从而也可以使用Hive的数据分析服务 1.Hive的交互方式: (1) Hive交互shell:/usr/local/src/hive-1.2.1/bin
阅读全文
摘要:1.下载Hive安装包: 官网下载:http://hive.apache.org/downloads.html 百度云分享:https://pan.baidu.com/s/1M4LmdOXaq6T-PqkyvpFHQw 2.上传Hive的tar包,并解压: 解压:tar -zxvf apache-h
阅读全文
摘要:1.Hive简介 Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一个表。并提供类SQL查询功能, 可以将sql语句转换为MapReduce任务运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce 统计,不必开发专门的MapReduce应用,十
阅读全文