会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Hoult丶吴邪
A lot can happen between now and never.
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
12
下一页
2021年2月12日
大数据开发-从cogroup的实现来看join是宽依赖还是窄依赖
摘要: 前面一篇文章提到大数据开发-Spark Join原理详解,本文从源码角度来看cogroup 的join实现 1.分析下面的代码 import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} obje
阅读全文
posted @ 2021-02-12 21:49 Hoult丶吴邪
阅读(324)
评论(0)
推荐(0)
2021年2月9日
大数据开发-Spark Join原理详解
摘要: 数据分析中将两个数据集进行 Join 操作是很常见的场景。在 Spark 的物理计划阶段,Spark 的 Join Selection 类会根 据 Join hints 策略、Join 表的大小、 Join 是等值 Join 还是不等值以及参与 Join 的 key 是否可以排序等条件来选择最 终的
阅读全文
posted @ 2021-02-09 11:41 Hoult丶吴邪
阅读(1385)
评论(0)
推荐(1)
2021年2月8日
大数据开发-Spark-初识Spark-Graph && 快速入门
摘要: 1.Spark Graph简介 GraphX 是 Spark 一个组件,专门用来表示图以及进行图的并行计算。GraphX 通过重新定义了图的抽象概念来拓展了 RDD: 定向多图,其属性附加到每个顶点和边。为了支持图计算, GraphX 公开了一系列基本运算符(比如:mapVertices、mapEd
阅读全文
posted @ 2021-02-08 16:47 Hoult丶吴邪
阅读(616)
评论(0)
推荐(0)
大数据开发-Spark-开发Streaming处理数据 && 写入Kafka
摘要: 1.Spark Streaming简介 Spark Streaming从各种输入源中读取数据,并把数据分组为小的批次。新的批次按均匀的时间间隔创建出来。在每个时间区间开始的时候,一个新的批次就创建出来,在该区间内收到的数据都会被添加到这个批次中。在时间区间结束时,批次停止增长,时间区间的大小是由批次
阅读全文
posted @ 2021-02-08 12:14 Hoult丶吴邪
阅读(1386)
评论(0)
推荐(0)
2021年2月7日
大数据开发-Sql-涉及迭代数据的sql问题处理思路
摘要: 在前面一篇里面,算法-一个经典sql 题和一个Java算法题 大数据开发-Hive-常用日期函数&&日期连续题sql套路有一道经典sql题目,解决连续问题,本文继续总结关于连续性的套路,来自于实际生产项目的问题,本文略去其他不重要信息字段,来从更深地层次解决问题,由于在生产中,常常是理解需求,转换需
阅读全文
posted @ 2021-02-07 23:15 Hoult丶吴邪
阅读(310)
评论(0)
推荐(0)
2021年1月31日
大数据开发-Spark-拷问灵魂的5个问题
摘要: 1.Spark计算依赖内存,如果目前只有10g内存,但是需要将500G的文件排序并输出,需要如何操作? ①、把磁盘上的500G数据分割为100块(chunks),每份5GB。(注意,要留一些系统空间!) ②、顺序将每份5GB数据读入内存,使用quick sort算法排序。 ③、把排序好的数据(也是5
阅读全文
posted @ 2021-01-31 17:39 Hoult丶吴邪
阅读(318)
评论(0)
推荐(1)
大数据开发-Spark-RDD实操案例-http日志分析
摘要: 1.在生产环境下,如何处理配置文件 && 表的数据处理 配置文件,或者配置表,一般是放在在线db,比如mysql等关系型数据库,或者后台rd直接丢给你一份文件,数据量比起整个离线数据仓库的大表来说算很小,所以这种情况下,一般的做法是将小表,或者小文件广播出去,那么下面一个例子来看,广播表的使用解决i
阅读全文
posted @ 2021-01-31 15:38 Hoult丶吴邪
阅读(1274)
评论(0)
推荐(1)
2021年1月25日
机器学习-KNN算法原理 && Spark实现
摘要: 不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线数仓>ETL工程师>BI工程师(不喜勿喷哈),现在做的工作主要是离线数仓,当然前期也做过一些ETL的工作,为了职业的长远发展,拓宽自己的技术
阅读全文
posted @ 2021-01-25 00:49 Hoult丶吴邪
阅读(373)
评论(0)
推荐(0)
机器学习-KMeans算法原理 && Spark实现
摘要: 不懂算法的数据开发者不是一个好的算法工程师,还记得研究生时候,导师讲过的一些数据挖掘算法,颇有兴趣,但是无奈工作后接触少了,数据工程师的鄙视链,模型>实时>离线数仓>ETL工程师>BI工程师(不喜勿喷哈),现在做的工作主要是离线数仓,当然前期也做过一些ETL的工作,为了职业的长远发展,拓宽自己的技术
阅读全文
posted @ 2021-01-25 00:47 Hoult丶吴邪
阅读(373)
评论(0)
推荐(0)
大数据开发-生产中遇到的10个致命问题
摘要: 生产环境版本 Hive: 1.2.1, Spark: 2.3.2 1.insert overwrite directory 不会覆盖数据 注意,生成结果是目录,生成目录里面的不同文件名不会被覆盖,因此很容易出现数据double或者没有覆盖到数据的问题,比如数据分片原始结果如下: /mytable/0
阅读全文
posted @ 2021-01-25 00:46 Hoult丶吴邪
阅读(394)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
12
下一页
公告