Python HiveServer2
摘要:1. 安装pyhs2pyhs2依赖项如下:gcc-c++python-devel.x86_64cyrus-sasl-devel.x86_64因此pyhs2的安装命令如下:yuminstallgcc-c++python-devel.x86_64cyrus-sasl-devel.x86_64pipins...
阅读全文
Spark SQL JSON数据处理
摘要:背景这一篇可以说是“HiveJSON数据处理的一点探索”的兄弟篇。平台为了加速即席查询的分析效率,在我们的Hadoop集群上安装部署了Spark Server,并且与我们的Hive数据仓库共享元数据。也就是说,我们的用户即可以通过HiveServer2使用Hive SQL执行MapReduce分析数...
阅读全文
Hive JSON数据处理的一点探索
摘要:背景JSON是一种轻量级的数据格式,结构灵活,支持嵌套,非常易于人的阅读和编写,而且主流的编程语言都提供相应的框架或类库支持与JSON数据的交互,因此大量的系统使用JSON作为日志存储格式。使用Hive分析数据(均指文本)之前,首先需要为待分析的数据建立一张数据表,然后才可以使用Hive SQL分析...
阅读全文
由“Beeline连接HiveServer2后如何使用指定的队列(Yarn)运行Hive SQL语句”引发的一系列思考
摘要:背景我们使用的HiveServer2的版本为0.13.1-cdh5.3.2,目前的任务使用Hive SQL构建,分为两种类型:手动任务(临时分析需求)、调度任务(常规分析需求),两者均通过我们的Web系统进行提交。以前两种类型的任务都被提交至Yarn中一个名称为“hive”的队列,为了避免两种类型的...
阅读全文