匠人先生

2018年12月27日

摘要：今天遇到一个问题，spark应用中在一个循环里执行sql，每个sql都会向一张表写入数据，比如 insert overwrite table test_table partition(dt) select * from test_table_another; 除了执行sql没有其他逻辑，每个sql都阅读全文

posted @ 2018-12-27 22:20 匠人先生阅读(847) 评论(0) 推荐(0)

大数据基础之Hive（2）Hive SQL执行过程之SQL解析过程

摘要： Hive SQL解析过程 SQL->AST(Abstract Syntax Tree)->Task（MapRedTask，FetchTask）->QueryPlan（Task集合）->Job（Yarn） SQL解析会在两个地方进行：一个是SQL执行前compile，具体在Driver.compil 阅读全文

posted @ 2018-12-27 18:41 匠人先生阅读(3807) 评论(0) 推荐(0)

大叔经验分享（18）hive2.0以后通过beeline执行sql没有进度信息

摘要：一问题在hive1.2中使用hive或者beeline执行sql都有进度信息，但是升级到hive2.0以后，只有hive执行sql还有进度信息，beeline执行sql完全silence，在等待结果的过程中完全不知道执行到哪了 1 hive执行sql过程（有进度信息） hive> select 阅读全文

posted @ 2018-12-27 16:53 匠人先生阅读(5990) 评论(2) 推荐(1)

大叔问题定位分享（22）hive同时执行多个insert overwrite table只有1个可以执行

摘要： hive 2.1 一问题最近有一个场景，要向一个表的多个分区写数据，为了缩短执行时间，采用并发的方式，多个sql同时执行，分别写不同的分区，同时开启动态分区： set hive.exec.dynamic.partition=true insert overwrite table test_tab 阅读全文

posted @ 2018-12-27 16:12 匠人先生阅读(10185) 评论(0) 推荐(0)

大数据基础之Hive（1）Hive SQL执行过程之代码流程

摘要： hive 2.1 hive执行sql有两种方式：执行hive命令，又细分为hive -e，hive -f，hive交互式；执行beeline命令，beeline会连接远程thrift server；下面分别看这些场景下sql是怎样被执行的： 1 hive命令启动命令启动hive客户端命令阅读全文

posted @ 2018-12-27 15:19 匠人先生阅读(3719) 评论(0) 推荐(0)

2018年12月26日

大叔算法分享（5）聚类算法DBSCAN

摘要：一简介 DBSCAN：Density-based spatial clustering of applications with noise is a data clustering algorithm proposed by Martin Ester, Hans-Peter Kriegel, J 阅读全文

posted @ 2018-12-26 18:23 匠人先生阅读(2492) 评论(1) 推荐(1)

2018年12月25日

大叔算法分享（4）Cardinality Estimate 基数计数概率算法

摘要：读过《编程珠玑》（<Programming Pearls>）的人应该还对开篇的Case记忆犹新，大概的场景是：作者的一位在电话公司工作的朋友想要统计一段时间内不同的电话号码的个数，电话号码的数量很大，当时的内存很小，所以不能把所有的电话号码全部放到内存来去重统计，他的朋友很苦恼。作者聪明的想到了阅读全文

posted @ 2018-12-25 23:27 匠人先生阅读(923) 评论(0) 推荐(1)

2018年12月21日

大数据基础之Spark（5）Shuffle实现原理及代码解析

摘要：一简介 Shuffle，简而言之，就是对数据进行重新分区，其中会涉及大量的网络io和磁盘io，为什么需要shuffle，以词频统计reduceByKey过程为例， serverA：partition1: (hello, 1), (word, 1)serverB：partition2: (hello 阅读全文

posted @ 2018-12-21 18:54 匠人先生阅读(1787) 评论(0) 推荐(1)

大数据基础之SPARK（9）SPARK中COLLECT和TAKE实现原理

摘要： spark中要将计算结果取回driver，有两种方式：collect和take，这两种方式有什么差别？来看代码： org.apache.spark.rdd.RDD /** * Return an array that contains all of the elements in this RDD. 阅读全文

posted @ 2018-12-21 14:56 匠人先生阅读(2436) 评论(0) 推荐(1)

大叔经验分享（15）spark sql limit实现原理

摘要：之前讨论过hive中limit的实现，详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现，首先看执行计划： spark-sql> explain select * from test1 limit 10 阅读全文

posted @ 2018-12-21 14:36 匠人先生阅读(3651) 评论(0) 推荐(0)

Thinking in BigData

公告