myc513

2020年5月19日

摘要：学海教育面试题一、笔试题 1、spark代码运行流程。（源码级别）答：1）、application启动之后，会在本地启动一个Driver进程，用于控制整个流程。 2）、首先初始化spark Context，spark Context会构建出DAG有向无环图，DAGScheduler根据宽窄依赖切阅读全文

posted @ 2020-05-19 20:26 myc513 阅读(167) 评论(0) 推荐(0)

2020年5月9日

sparkSQL自定义聚合函数

摘要： Spark的dataframe提供了通用的聚合方法，比如count()，countDistinct()，avg(),max(),min()等等。然而这些函数是针对dataframe设计的，当然sparksql也有类型安全的版本，java和scala语言接口都有，这些就适用于强类型Datasets。本阅读全文

posted @ 2020-05-09 16:02 myc513 阅读(861) 评论(0) 推荐(0)

2020年5月8日

关于集群各个组件版本号的记录

摘要： CDH版本：5.7.0 Hadoop版本：2.6.0 Flume：1.6.0 MapReduce：2.6.0 yarn：2.6.0 HGFS：2.6.0 HBASE：1.2.0 Hive：1.1.0 Hue：3.9.0 impala：2.5.0 jdk：1.8 Oozie：4.1 Spark：1.6 阅读全文

posted @ 2020-05-08 13:24 myc513 阅读(199) 评论(0) 推荐(0)

2020年5月7日

spark面试题（长期不定时更新）

摘要： 1、spark都有哪些组件，每个组件的作用？答：spark组件如下： 1）、master：管理集群和节点，不参与计算 2）、Driver：运行程序的main方法，创建spark context对象 3）、Worker：计算节点，进程本身不参与计算，向master汇报 4）、Executor：真正进阅读全文

posted @ 2020-05-07 17:25 myc513 阅读(690) 评论(0) 推荐(0)

2020年4月30日

spark原理及基础解析

摘要：一、spark概述 1.1、定义 Spark是一种基于内存的快速、通用可扩展的的大数据分析引擎。 1.2、历史 1.3、spark特点 1）、运行速度快：与Hadoop的MR相比，Spark基于内存的运算要快100倍以上，基于硬盘的计算也快10倍以上。使用DAG（有向无环图）执行引擎以支持循环数据流阅读全文

posted @ 2020-04-30 17:12 myc513 阅读(661) 评论(0) 推荐(0)

2020年4月27日

hive学习之hive数据倾斜以及优化

摘要：一、数据倾斜的原因 1）、key分布不均 2）、业务数据本身的特性 3）、建表时候考虑不周 4）、某些sql语句本身就有数据倾斜关键词情形后果 join ①其中一个表较小，但是key集中 ②大表与大表，但是分桶的判断字段0值或者空值过多 ①分发到某一个或者某几个reducer上的数据远高于平阅读全文

posted @ 2020-04-27 14:03 myc513 阅读(883) 评论(0) 推荐(0)

2020年4月24日

Hive常用的查询函数

摘要：一、空字段赋值 1、函数说明 NVL：给值为NULL的数据赋值，它的格式是NVL(value,default_value)。它的功能是如果value为NULL，则NVL函数返回的defalt_value。否则返回value的值。如果两个参数为NULL，则返回NULL。 2、案例实测 -- 查询：如果阅读全文

posted @ 2020-04-24 17:11 myc513 阅读(680) 评论(0) 推荐(0)

Hive学习之排序

摘要： Hive排序一、全局排序（order by） Order by：全局排序，只有一个reducer 1、使用 Order by 子句排序升序：ASC，可以不写，默认是升序降序：DESC，降序 2、order by 语句使用在select语句的结尾 3、案例实操 -- （1）查询员工信息按工资升阅读全文

posted @ 2020-04-24 14:20 myc513 阅读(1061) 评论(0) 推荐(0)

2020年3月9日

MapReduce实现WordCount

摘要： MapReduce实现WC的步骤： 1、创建WC类继承 configured，实现Tool接口 2、实现Mapper内部类 3、实现Reducer内部类 4、设置job相关信息 5、提交job运行以下是实现代码： package mr; import java.io.IOException; im 阅读全文

posted @ 2020-03-09 16:45 myc513 阅读(238) 评论(0) 推荐(0)

2020年1月10日

Hadoop概述

摘要： Hadoop概述 Hadoop项目是Apache的顶级项目 Hadoop项目是以可靠、可扩展和分布式计算为目的发展而来的软件大数据特点数据容量大：TB--PB 数据类型多：各种非结构化数据。商业价值高：客户群体细分，提供定制化服务处理速度快：分布式存储计算，提高效率 Hadoop核心组件主阅读全文

posted @ 2020-01-10 10:27 myc513 阅读(181) 评论(0) 推荐(0)

公告