随笔分类 - Hive
摘要:本文描述了一个系统,功能是评价和抽象地理围栏(Geo-fencing),以及监控和分析核心地理围栏中业务的表现。 技术栈:Spring-JQuery-百度地图WEB SDK 存储:Hive-Elasticsearch-MySQL-Redis 什么是地理围栏? LBS系统中,地理围栏指的是虚拟边界围成
阅读全文
摘要:本文主要介绍spark join相关操作。 讲述spark连接相关的三个方法join,left-outer-join,right-outer-join,在这之前,我们用hiveSQL先跑出了结果以方便进行对比。 我们以实例来进行说明。我的实现步骤记录如下。 1、数据准备 2、HSQL描述 3、Spa
阅读全文
摘要:本文记录的是,在数据处理过程中,遇到了一个sql执行很慢,对一些大型的hive表还会出现OOM,一步一步通过参数的设置和sql优化,将其调优的过程。 先上sql 可以看到这个sql由1个join,一个去重语句,组成,这两种操作都是很耗费资源的。 1、对链接操作,小表放在链接左边。 这是一个老生常谈的
阅读全文
摘要:本文处理的场景如下,hive表中的数据,对其中的多列进行判重deduplicate。 1、先解决依赖,spark相关的所有包,pom.xml spark-hive是我们进行hive表spark处理的关键。 2、spark-client 3、判重流程 4、运行方式 提交任务脚本 运行: 结果
阅读全文
摘要:上文介绍了hdfs集群信息的读取方式,本文说hive 1、先解决依赖 2、配置文件 这里我们给出一种简单的配置方法,就是直接将hive-site.xml通过添加文件的方式加载到配置 例如,hive-site.xml中的配置如下 3、hive client api 说明: 1、hiveConf.add
阅读全文
摘要:1、dirver 2、Mapper 3、Reducer 4、propertyUtil 5、配置
阅读全文
摘要:hive sql求差集的方法 1、什么是差集 set1 - set2,即去掉set1中存在于set2中的数据。 2、hive中计算差集的方法,基本是使用左外链接。 直接上代码 3、一般来说我们要先去重,使得两个表都变成集合,元素唯一。 先对table2(右表)去重然后再计算差集。
阅读全文
摘要:去重: 以id进行分组,然后取出每组的第一个 以id进行分组,按照create_time降序排序后,然后取出每组的第一个 将去重后的数据重新存储 去重之后与其他表join算匹配数
阅读全文
摘要:1、spark是什么? Spark是基于内存计算的大数据并行计算框架。 1.1 Spark基于内存计算 相比于MapReduce基于IO计算,提高了在大数据环境下数据处理的实时性。 1.2 高容错性和高可伸缩性 与mapreduce框架相同,允许用户将Spark部署在大量廉价硬件之上,形成集群。 2
阅读全文

浙公网安备 33010602011771号