会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
myc513
博客园
首页
新随笔
联系
管理
订阅
2020年5月19日
面试总结
摘要: 学海教育面试题 一、笔试题 1、spark代码运行流程。(源码级别) 答:1)、application启动之后,会在本地启动一个Driver进程,用于控制整个流程。 2)、首先初始化spark Context,spark Context会构建出DAG有向无环图,DAGScheduler根据宽窄依赖切
阅读全文
posted @ 2020-05-19 20:26 myc513
阅读(167)
评论(0)
推荐(0)
2020年5月9日
sparkSQL自定义聚合函数
摘要: Spark的dataframe提供了通用的聚合方法,比如count(),countDistinct(),avg(),max(),min()等等。然而这些函数是针对dataframe设计的,当然sparksql也有类型安全的版本,java和scala语言接口都有,这些就适用于强类型Datasets。本
阅读全文
posted @ 2020-05-09 16:02 myc513
阅读(861)
评论(0)
推荐(0)
2020年5月8日
关于集群各个组件版本号的记录
摘要: CDH版本:5.7.0 Hadoop版本:2.6.0 Flume:1.6.0 MapReduce:2.6.0 yarn:2.6.0 HGFS:2.6.0 HBASE:1.2.0 Hive:1.1.0 Hue:3.9.0 impala:2.5.0 jdk:1.8 Oozie:4.1 Spark:1.6
阅读全文
posted @ 2020-05-08 13:24 myc513
阅读(199)
评论(0)
推荐(0)
2020年5月7日
spark面试题(长期不定时更新)
摘要: 1、spark都有哪些组件,每个组件的作用? 答:spark组件如下: 1)、master:管理集群和节点,不参与计算 2)、Driver:运行程序的main方法,创建spark context对象 3)、Worker:计算节点,进程本身不参与计算,向master汇报 4)、Executor:真正进
阅读全文
posted @ 2020-05-07 17:25 myc513
阅读(690)
评论(0)
推荐(0)
2020年4月30日
spark原理及基础解析
摘要: 一、spark概述 1.1、定义 Spark是一种基于内存的快速、通用可扩展的的大数据分析引擎。 1.2、历史 1.3、spark特点 1)、运行速度快:与Hadoop的MR相比,Spark基于内存的运算要快100倍以上,基于硬盘的计算也快10倍以上。使用DAG(有向无环图)执行引擎以支持循环数据流
阅读全文
posted @ 2020-04-30 17:12 myc513
阅读(661)
评论(0)
推荐(0)
2020年4月27日
hive学习之hive数据倾斜以及优化
摘要: 一、数据倾斜的原因 1)、key分布不均 2)、业务数据本身的特性 3)、建表时候考虑不周 4)、某些sql语句本身就有数据倾斜 关键词 情形 后果 join ①其中一个表较小,但是key集中 ②大表与大表,但是分桶的判断字段0值或者 空值过多 ①分发到某一个或者某几个reducer上的数据远高于平
阅读全文
posted @ 2020-04-27 14:03 myc513
阅读(883)
评论(0)
推荐(0)
2020年4月24日
Hive常用的查询函数
摘要: 一、空字段赋值 1、函数说明 NVL:给值为NULL的数据赋值,它的格式是NVL(value,default_value)。它的功能是如果value为NULL,则NVL函数返回的defalt_value。否则返回value的值。如果两个参数为NULL,则返回NULL。 2、案例实测 -- 查询:如果
阅读全文
posted @ 2020-04-24 17:11 myc513
阅读(680)
评论(0)
推荐(0)
Hive学习之排序
摘要: Hive排序 一、全局排序(order by) Order by:全局排序,只有一个reducer 1、使用 Order by 子句排序 升序:ASC,可以不写,默认是升序 降序:DESC,降序 2、order by 语句使用在select语句的结尾 3、案例实操 -- (1) 查询员工信息按工资升
阅读全文
posted @ 2020-04-24 14:20 myc513
阅读(1061)
评论(0)
推荐(0)
2020年3月9日
MapReduce实现WordCount
摘要: MapReduce实现WC的步骤: 1、创建WC类继承 configured,实现Tool接口 2、实现Mapper内部类 3、实现Reducer内部类 4、设置job相关信息 5、提交job运行 以下是实现代码: package mr; import java.io.IOException; im
阅读全文
posted @ 2020-03-09 16:45 myc513
阅读(238)
评论(0)
推荐(0)
2020年1月10日
Hadoop概述
摘要: Hadoop概述 Hadoop项目是Apache的顶级项目 Hadoop项目是以可靠、可扩展和分布式计算为目的发展而来的软件 大数据特点 数据容量大:TB--PB 数据类型多:各种非结构化数据。 商业价值高:客户群体细分,提供定制化服务 处理速度快:分布式存储计算,提高效率 Hadoop核心组件 主
阅读全文
posted @ 2020-01-10 10:27 myc513
阅读(181)
评论(0)
推荐(0)
公告