Hoult丶吴邪

2021年2月12日

摘要：前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} obje 阅读全文

posted @ 2021-02-12 21:49 Hoult丶吴邪阅读(328) 评论(0) 推荐(0)

2021年2月9日

大数据开发-Spark Join原理详解

摘要：数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划阶段，Spark 的 Join Selection 类会根据 Join hints 策略、Join 表的大小、 Join 是等值 Join 还是不等值以及参与 Join 的 key 是否可以排序等条件来选择最终的阅读全文

posted @ 2021-02-09 11:41 Hoult丶吴邪阅读(1390) 评论(0) 推荐(1)

2021年2月8日

大数据开发-Spark-初识Spark-Graph && 快速入门

摘要： 1.Spark Graph简介 GraphX 是 Spark 一个组件，专门用来表示图以及进行图的并行计算。GraphX 通过重新定义了图的抽象概念来拓展了 RDD：定向多图，其属性附加到每个顶点和边。为了支持图计算， GraphX 公开了一系列基本运算符（比如：mapVertices、mapEd 阅读全文

posted @ 2021-02-08 16:47 Hoult丶吴邪阅读(616) 评论(0) 推荐(0)

大数据开发-Spark-开发Streaming处理数据 && 写入Kafka

摘要： 1.Spark Streaming简介 Spark Streaming从各种输入源中读取数据，并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候，一个新的批次就创建出来，在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时，批次停止增长，时间区间的大小是由批次阅读全文

posted @ 2021-02-08 12:14 Hoult丶吴邪阅读(1395) 评论(0) 推荐(0)

2021年2月7日

大数据开发-Sql-涉及迭代数据的sql问题处理思路

摘要：在前面一篇里面，算法-一个经典sql 题和一个Java算法题大数据开发-Hive-常用日期函数&&日期连续题sql套路有一道经典sql题目，解决连续问题，本文继续总结关于连续性的套路，来自于实际生产项目的问题，本文略去其他不重要信息字段，来从更深地层次解决问题，由于在生产中，常常是理解需求，转换需阅读全文

posted @ 2021-02-07 23:15 Hoult丶吴邪阅读(317) 评论(0) 推荐(0)

2021年1月31日

大数据开发-Spark-拷问灵魂的5个问题

摘要： 1.Spark计算依赖内存，如果目前只有10g内存，但是需要将500G的文件排序并输出，需要如何操作？ ①、把磁盘上的500G数据分割为100块（chunks），每份5GB。（注意，要留一些系统空间！） ②、顺序将每份5GB数据读入内存，使用quick sort算法排序。 ③、把排序好的数据（也是5 阅读全文

posted @ 2021-01-31 17:39 Hoult丶吴邪阅读(322) 评论(0) 推荐(1)

大数据开发-Spark-RDD实操案例-http日志分析

摘要： 1.在生产环境下，如何处理配置文件 && 表的数据处理配置文件，或者配置表，一般是放在在线db，比如mysql等关系型数据库，或者后台rd直接丢给你一份文件，数据量比起整个离线数据仓库的大表来说算很小，所以这种情况下，一般的做法是将小表，或者小文件广播出去，那么下面一个例子来看，广播表的使用解决i 阅读全文

posted @ 2021-01-31 15:38 Hoult丶吴邪阅读(1285) 评论(0) 推荐(1)

2021年1月25日

机器学习-KNN算法原理 && Spark实现

摘要：不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型>实时>离线数仓>ETL工程师>BI工程师（不喜勿喷哈），现在做的工作主要是离线数仓，当然前期也做过一些ETL的工作，为了职业的长远发展，拓宽自己的技术阅读全文

posted @ 2021-01-25 00:49 Hoult丶吴邪阅读(378) 评论(0) 推荐(0)

机器学习-KMeans算法原理 && Spark实现

摘要：不懂算法的数据开发者不是一个好的算法工程师，还记得研究生时候，导师讲过的一些数据挖掘算法，颇有兴趣，但是无奈工作后接触少了，数据工程师的鄙视链，模型>实时>离线数仓>ETL工程师>BI工程师（不喜勿喷哈），现在做的工作主要是离线数仓，当然前期也做过一些ETL的工作，为了职业的长远发展，拓宽自己的技术阅读全文

posted @ 2021-01-25 00:47 Hoult丶吴邪阅读(386) 评论(0) 推荐(0)

大数据开发-生产中遇到的10个致命问题

摘要：生产环境版本 Hive: 1.2.1, Spark: 2.3.2 1.insert overwrite directory 不会覆盖数据注意，生成结果是目录，生成目录里面的不同文件名不会被覆盖，因此很容易出现数据double或者没有覆盖到数据的问题，比如数据分片原始结果如下： /mytable/0 阅读全文

posted @ 2021-01-25 00:46 Hoult丶吴邪阅读(398) 评论(0) 推荐(0)

A lot can happen between now and never.

公告