上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 37 下一页
摘要: 今天遇到一个问题,spark应用中在一个循环里执行sql,每个sql都会向一张表写入数据,比如 insert overwrite table test_table partition(dt) select * from test_table_another; 除了执行sql没有其他逻辑,每个sql都 阅读全文
posted @ 2018-12-27 22:20 匠人先生 阅读(825) 评论(0) 推荐(0)
摘要: Hive SQL解析过程 SQL->AST(Abstract Syntax Tree)->Task(MapRedTask,FetchTask)->QueryPlan(Task集合)->Job(Yarn) SQL解析会在两个地方进行: 一个是SQL执行前compile,具体在Driver.compil 阅读全文
posted @ 2018-12-27 18:41 匠人先生 阅读(3783) 评论(0) 推荐(0)
摘要: 一 问题 在hive1.2中使用hive或者beeline执行sql都有进度信息,但是升级到hive2.0以后,只有hive执行sql还有进度信息,beeline执行sql完全silence,在等待结果的过程中完全不知道执行到哪了 1 hive执行sql过程(有进度信息) hive> select 阅读全文
posted @ 2018-12-27 16:53 匠人先生 阅读(5948) 评论(2) 推荐(1)
摘要: hive 2.1 一 问题 最近有一个场景,要向一个表的多个分区写数据,为了缩短执行时间,采用并发的方式,多个sql同时执行,分别写不同的分区,同时开启动态分区: set hive.exec.dynamic.partition=true insert overwrite table test_tab 阅读全文
posted @ 2018-12-27 16:12 匠人先生 阅读(10142) 评论(0) 推荐(0)
摘要: hive 2.1 hive执行sql有两种方式: 执行hive命令,又细分为hive -e,hive -f,hive交互式; 执行beeline命令,beeline会连接远程thrift server; 下面分别看这些场景下sql是怎样被执行的: 1 hive命令 启动命令 启动hive客户端命令 阅读全文
posted @ 2018-12-27 15:19 匠人先生 阅读(3696) 评论(0) 推荐(0)
摘要: 一 简介 DBSCAN:Density-based spatial clustering of applications with noise is a data clustering algorithm proposed by Martin Ester, Hans-Peter Kriegel, J 阅读全文
posted @ 2018-12-26 18:23 匠人先生 阅读(2474) 评论(1) 推荐(1)
摘要: 读过《编程珠玑》(<Programming Pearls>)的人应该还对开篇的Case记忆犹新,大概的场景是: 作者的一位在电话公司工作的朋友想要统计一段时间内不同的电话号码的个数,电话号码的数量很大,当时的内存很小,所以不能把所有的电话号码全部放到内存来去重统计,他的朋友很苦恼。 作者聪明的想到了 阅读全文
posted @ 2018-12-25 23:27 匠人先生 阅读(905) 评论(0) 推荐(1)
摘要: 一 简介 Shuffle,简而言之,就是对数据进行重新分区,其中会涉及大量的网络io和磁盘io,为什么需要shuffle,以词频统计reduceByKey过程为例, serverA:partition1: (hello, 1), (word, 1)serverB:partition2: (hello 阅读全文
posted @ 2018-12-21 18:54 匠人先生 阅读(1762) 评论(0) 推荐(1)
摘要: spark中要将计算结果取回driver,有两种方式:collect和take,这两种方式有什么差别?来看代码: org.apache.spark.rdd.RDD /** * Return an array that contains all of the elements in this RDD. 阅读全文
posted @ 2018-12-21 14:56 匠人先生 阅读(2430) 评论(0) 推荐(1)
摘要: 之前讨论过hive中limit的实现,详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现,首先看执行计划: spark-sql> explain select * from test1 limit 10 阅读全文
posted @ 2018-12-21 14:36 匠人先生 阅读(3626) 评论(0) 推荐(0)
上一页 1 ··· 26 27 28 29 30 31 32 33 34 ··· 37 下一页