BigData - 随笔分类(第8页) - 匠人先生

大数据基础之Spark（7）spark读取文件split过程（即RDD分区数量）

摘要：spark 2.1.1 spark初始化rdd的时候，需要读取文件，通常是hdfs文件，在读文件的时候可以指定最小partition数量，这里只是建议的数量，实际可能比这个要大（比如文件特别多或者特别大时），也可能比这个要小（比如文件只有一个而且很小时），如果没有指定最小partition数量，初始阅读全文

posted @ 2018-12-28 20:55 匠人先生阅读(8179) 评论(0) 推荐(5)

大数据基础之Spark（6）Spark Rdd Sort实现原理

摘要：spark 2.1.1 spark中可以通过RDD.sortBy来对分布式数据进行排序，具体是如何实现的？来看代码： org.apache.spark.rdd.RDD /** * Return this RDD sorted by the given key function. */ def sor 阅读全文

posted @ 2018-12-28 20:07 匠人先生阅读(1280) 评论(0) 推荐(0)

大叔经验分享（17）编程实践对比Java vs Scala

摘要：scala 官方地址 https://www.scala-lang.org/ 本文尽可能包含了一些主要的java和scala在编程实践时的显著差异，展现scala的代码的简洁优雅；scala通吃<面向对象编程Object Oriented Programming>和<函数式编程Functional 阅读全文

posted @ 2018-12-28 19:35 匠人先生阅读(622) 评论(0) 推荐(0)

大叔经验分享（20）spark job之间会停顿几分钟

摘要：今天遇到一个问题，spark应用中在一个循环里执行sql，每个sql都会向一张表写入数据，比如 insert overwrite table test_table partition(dt) select * from test_table_another; 除了执行sql没有其他逻辑，每个sql都阅读全文

posted @ 2018-12-27 22:20 匠人先生阅读(825) 评论(0) 推荐(0)

大数据基础之Hive（2）Hive SQL执行过程之SQL解析过程

摘要：Hive SQL解析过程 SQL->AST(Abstract Syntax Tree)->Task（MapRedTask，FetchTask）->QueryPlan（Task集合）->Job（Yarn） SQL解析会在两个地方进行：一个是SQL执行前compile，具体在Driver.compil 阅读全文

posted @ 2018-12-27 18:41 匠人先生阅读(3781) 评论(0) 推荐(0)

大叔经验分享（18）hive2.0以后通过beeline执行sql没有进度信息

摘要：一问题在hive1.2中使用hive或者beeline执行sql都有进度信息，但是升级到hive2.0以后，只有hive执行sql还有进度信息，beeline执行sql完全silence，在等待结果的过程中完全不知道执行到哪了 1 hive执行sql过程（有进度信息） hive> select 阅读全文

posted @ 2018-12-27 16:53 匠人先生阅读(5946) 评论(2) 推荐(1)

大叔问题定位分享（22）hive同时执行多个insert overwrite table只有1个可以执行

摘要：hive 2.1 一问题最近有一个场景，要向一个表的多个分区写数据，为了缩短执行时间，采用并发的方式，多个sql同时执行，分别写不同的分区，同时开启动态分区： set hive.exec.dynamic.partition=true insert overwrite table test_tab 阅读全文

posted @ 2018-12-27 16:12 匠人先生阅读(10140) 评论(0) 推荐(0)

大数据基础之Hive（1）Hive SQL执行过程之代码流程

摘要：hive 2.1 hive执行sql有两种方式：执行hive命令，又细分为hive -e，hive -f，hive交互式；执行beeline命令，beeline会连接远程thrift server；下面分别看这些场景下sql是怎样被执行的： 1 hive命令启动命令启动hive客户端命令阅读全文

posted @ 2018-12-27 15:19 匠人先生阅读(3690) 评论(0) 推荐(0)

大叔算法分享（5）聚类算法DBSCAN

摘要：一简介 DBSCAN：Density-based spatial clustering of applications with noise is a data clustering algorithm proposed by Martin Ester, Hans-Peter Kriegel, J 阅读全文

posted @ 2018-12-26 18:23 匠人先生阅读(2474) 评论(1) 推荐(1)

大叔算法分享（4）Cardinality Estimate 基数计数概率算法

摘要：读过《编程珠玑》（<Programming Pearls>）的人应该还对开篇的Case记忆犹新，大概的场景是：作者的一位在电话公司工作的朋友想要统计一段时间内不同的电话号码的个数，电话号码的数量很大，当时的内存很小，所以不能把所有的电话号码全部放到内存来去重统计，他的朋友很苦恼。作者聪明的想到了阅读全文

posted @ 2018-12-25 23:27 匠人先生阅读(904) 评论(0) 推荐(1)

大数据基础之Spark（5）Shuffle实现原理及代码解析

摘要：一简介 Shuffle，简而言之，就是对数据进行重新分区，其中会涉及大量的网络io和磁盘io，为什么需要shuffle，以词频统计reduceByKey过程为例， serverA：partition1: (hello, 1), (word, 1)serverB：partition2: (hello 阅读全文

posted @ 2018-12-21 18:54 匠人先生阅读(1762) 评论(0) 推荐(1)

大数据基础之SPARK（9）SPARK中COLLECT和TAKE实现原理

摘要：spark中要将计算结果取回driver，有两种方式：collect和take，这两种方式有什么差别？来看代码： org.apache.spark.rdd.RDD /** * Return an array that contains all of the elements in this RDD. 阅读全文

posted @ 2018-12-21 14:56 匠人先生阅读(2430) 评论(0) 推荐(1)

大叔经验分享（15）spark sql limit实现原理

摘要：之前讨论过hive中limit的实现，详见 https://www.cnblogs.com/barneywill/p/10109217.html下面看spark sql中limit的实现，首先看执行计划： spark-sql> explain select * from test1 limit 10 阅读全文

posted @ 2018-12-21 14:36 匠人先生阅读(3626) 评论(0) 推荐(0)

大叔问题定位分享（21）spark执行insert overwrite非常慢，比hive还要慢

摘要：最近把一些sql执行从hive改到spark，发现执行更慢，sql主要是一些insert overwrite操作，从执行计划看到，用到InsertIntoHiveTable spark-sql> explain insert overwrite table test2 select * from t 阅读全文

posted @ 2018-12-21 11:45 匠人先生阅读(8583) 评论(1) 推荐(1)

大叔经验分享（14）spark on yarn提交任务到集群后spark-submit进程一直等待

摘要：spark on yarn通过--deploy-mode cluster提交任务之后，应用已经在yarn上执行了，但是spark-submit提交进程还在，直到应用执行结束，提交进程才会退出，有时这会很不方便，并且不注意的话还会占用很多资源，比如提交spark streaming应用；最近发现sp 阅读全文

posted @ 2018-12-21 11:15 匠人先生阅读(2945) 评论(0) 推荐(0)

大叔问题定位分享（20）hdfs文件create写入正常，append写入报错

摘要：最近在hdfs写文件的时候发现一个问题，create写入正常，append写入报错，每次都能重现，代码示例如下： FileSystem fs = FileSystem.get(conf); OutputStream out = fs.create(file); IOUtils.copyBytes(i 阅读全文

posted @ 2018-12-21 11:08 匠人先生阅读(1461) 评论(0) 推荐(0)

大叔问题定位分享（19）spark task在executors上分布不均

摘要：最近提交一个spark应用之后发现执行非常慢，点开spark web ui之后发现卡在一个job的一个stage上，这个stage有100000个task，但是绝大部分task都分配到两个executor上，其他executor非常空闲，what happened？查看spark task分配逻辑阅读全文

posted @ 2018-12-20 21:44 匠人先生阅读(2230) 评论(0) 推荐(0)

大数据基础之Spark（4）RDD原理及代码解析

摘要：一简介 spark核心是RDD，官方文档地址：https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下：重点是可容错，可并行处理 Spark r 阅读全文

posted @ 2018-12-20 21:18 匠人先生阅读(1661) 评论(0) 推荐(1)

大叔问题定位分享（18）beeline连接spark thrift有时会卡住

摘要：spark 2.1.1 beeline连接spark thrift之后，执行use database有时会卡住，而use database 在server端对应的是 setCurrentDatabase，经过排查发现当时spark thrift正在执行insert操作， org.apache.sp 阅读全文

posted @ 2018-12-19 19:38 匠人先生阅读(948) 评论(0) 推荐(0)

大叔问题定位分享（17）spark查orc格式数据偶尔报错NullPointerException

摘要：spark查orc格式的数据有时会报这个错 Caused by: java.lang.NullPointerException at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat$BISplitStrategy.getSplits(OrcInputF 阅读全文

posted @ 2018-12-19 11:36 匠人先生阅读(3738) 评论(0) 推荐(1)

Thinking in BigData

匠人先生

随笔分类 - BigData

公告