Hive - 随笔分类 - 扎心了老铁

基于百度地图SDK和Elasticsearch GEO查询的地理围栏分析系统（1）-数据准备

摘要：本文描述了一个系统，功能是评价和抽象地理围栏(Geo-fencing)，以及监控和分析核心地理围栏中业务的表现。技术栈：Spring-JQuery-百度地图WEB SDK 存储：Hive-Elasticsearch-MySQL-Redis 什么是地理围栏？ LBS系统中，地理围栏指的是虚拟边界围成阅读全文

posted @ 2017-12-16 21:43 扎心了老铁阅读(2689) 评论(1) 推荐(1)

spark三种连接join

摘要：本文主要介绍spark join相关操作。讲述spark连接相关的三个方法join，left-outer-join，right-outer-join，在这之前，我们用hiveSQL先跑出了结果以方便进行对比。我们以实例来进行说明。我的实现步骤记录如下。 1、数据准备 2、HSQL描述 3、Spa 阅读全文

posted @ 2017-11-03 16:45 扎心了老铁阅读(46498) 评论(1) 推荐(3)

数据迁移过程中hive sql调优

摘要：本文记录的是，在数据处理过程中，遇到了一个sql执行很慢，对一些大型的hive表还会出现OOM，一步一步通过参数的设置和sql优化，将其调优的过程。先上sql 可以看到这个sql由1个join，一个去重语句，组成，这两种操作都是很耗费资源的。 1、对链接操作，小表放在链接左边。这是一个老生常谈的阅读全文

posted @ 2017-07-23 09:22 扎心了老铁阅读(673) 评论(0) 推荐(1)

使用spark对hive表中的多列数据判重

摘要：本文处理的场景如下，hive表中的数据，对其中的多列进行判重deduplicate。 1、先解决依赖，spark相关的所有包，pom.xml spark-hive是我们进行hive表spark处理的关键。 2、spark-client 3、判重流程 4、运行方式提交任务脚本运行：结果阅读全文

posted @ 2017-07-22 23:57 扎心了老铁阅读(1264) 评论(0) 推荐(1)

使用hive客户端java api读写hive集群上的信息

摘要：上文介绍了hdfs集群信息的读取方式，本文说hive 1、先解决依赖 2、配置文件这里我们给出一种简单的配置方法，就是直接将hive-site.xml通过添加文件的方式加载到配置例如，hive-site.xml中的配置如下 3、hive client api 说明： 1、hiveConf.add 阅读全文

posted @ 2017-07-22 15:50 扎心了老铁阅读(8946) 评论(0) 推荐(1)

Hadoop通过HCatalog编写Mapreduce任务访问hive库中schema数据

摘要：1、dirver 2、Mapper 3、Reducer 4、propertyUtil 5、配置阅读全文

posted @ 2017-07-09 00:11 扎心了老铁阅读(1358) 评论(0) 推荐(1)

hiveQL求差集

摘要：hive sql求差集的方法 1、什么是差集 set1 - set2，即去掉set1中存在于set2中的数据。 2、hive中计算差集的方法，基本是使用左外链接。直接上代码 3、一般来说我们要先去重，使得两个表都变成集合，元素唯一。先对table2(右表)去重然后再计算差集。阅读全文

posted @ 2017-07-04 12:20 扎心了老铁阅读(4770) 评论(0) 推荐(0)

hiveQL去重

摘要：去重：以id进行分组，然后取出每组的第一个以id进行分组，按照create_time降序排序后，然后取出每组的第一个将去重后的数据重新存储去重之后与其他表join算匹配数阅读全文

posted @ 2017-06-26 13:53 扎心了老铁阅读(952) 评论(0) 推荐(0)

java使用spark/spark-sql处理schema数据

摘要：1、spark是什么？ Spark是基于内存计算的大数据并行计算框架。 1.1 Spark基于内存计算相比于MapReduce基于IO计算，提高了在大数据环境下数据处理的实时性。 1.2 高容错性和高可伸缩性与mapreduce框架相同，允许用户将Spark部署在大量廉价硬件之上，形成集群。 2 阅读全文

posted @ 2017-05-22 21:38 扎心了老铁阅读(11149) 评论(0) 推荐(0)

扎心了老铁

随笔分类 - Hive

公告