数据开发问题汇总

1.MR过程是怎样的？

2.数据倾斜的场景，如何解决？

3.窗口函数以及用法。

4.rdd特性有哪些？

5.udaf和udtf的区别是什么？

6.写过udf吗？

7.SQL行转列，列转行。

8.hdfs存储格式有哪些？hdfs压缩格式有哪些？

hdfs 文件存储格式

hdfs 文件存储格式分为两大类行存储和列存储

行存储,将一整行存储在一起,是一种连续的存储方式,例如SequenceFile,MapFile,缺点是如果只需要行中的某一列也必须把整行都读入内存当中

列存储列存储会把文件切割成若干列,每一列存储在一起,是需要那一列读取那一列,不需要的不用读取,例如parquet ORCfile,RCfile,列存储不适合流式写入,写入失败当前文件无法恢复因此flume采用行存储,列存储由于每一列中的数据类型相同所以可以根据数据类型选择适合的编码和压缩格式

SequenceFile:Hadoop提供的一个行存储结构,Hadoop适合处理大文件而不适合处理小文件,所以sequencefile是为小文件提供的一种容器,将小文件包装起来形成一个SequenceFile类, 它用一种<key,value>的形式序列化数据导文件中

MapFile:MapFile可以看做有序的SequenceFile,是排过序的SequenceFile,它有索引可以按照索引查找,索引作为一个单独的文件存储,一般128个记录存储一个索引,索引可以载入内存,方便快速查找

hdfs 最开始只有行存储的这两种形式 SequenceFile和macFile,除此之外还有text文本,但是之后再hive中丰富了存储结构包括如下几种

RCFile:hive的RCfile 是将数据按照行分组 ,组内在按照列划分储存

ORCfile:是RCfile的升级版,将数据划分为默认大小为250MB的stripe(条带),每个stripe包含索引,数据和footer,ORCfile包换索引比RCfile更加高效

Parquet:parquet基于Google的dremel,擅长处理深度嵌套的数据(有点类似于嵌套多层的json格式),parquet会将嵌套结构整合为平面列存储,

1.gzip压缩

优点：缺点：不支持split。
1. 压缩率比较高，而且压缩/解压速度也比较快；
2. hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；
3. 有hadoop native库；
4. 大部分linux系统都自带gzip命令，使用方便。
应用场景：
1. 当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件，运行mapreduce程序的时候通过多个gzip文件达到并发。
2. hive程序，streaming程序，和java写的mapreduce程序完全和文本处理一样，压缩之后原来的程序不需要做任何修改。

2.lzo压缩

优点：
1. 压缩/解压速度也比较快，合理的压缩率；
2. 支持split，是hadoop中最流行的压缩格式；
3. 支持hadoop native库；
4. 可以在linux系统下安装lzop命令，使用方便。
缺点：应用场景：
1. 压缩率比gzip要低一些；
2. hadoop本身不支持，需要安装；
3. 在应用中对lzo格式的文件需要做一些特殊处理（为了支持split需要建索引，还需要指定inputformat为lzo格式）。
一个很大的文本文件，压缩之后还大于200M以上的可以考虑，而且单个文件越大，lzo优点越明显。

3.snappy压缩

优点：
1. 高速压缩速度和合理的压缩率；
2. 支持hadoop native库。
缺点：
1. 不支持split；
2. 压缩率比gzip要低；
3. hadoop本身不支持，需要安装；
4. linux系统下没有对应的命令。
应用场景：
1. 当mapreduce作业的map输出的数据比较大的时候，作为map到reduce的中间数据的压缩格式；
2. 或者作为一个mapreduce作业的输出和另外一个mapreduce作业的输入。

4.bzip2压缩

优点：
1. 支持split；
2. 具有很高的压缩率，比gzip压缩率都高；
3. hadoop本身支持，但不支持native；
4. 在linux系统下自带bzip2命令，使用方便。
缺点：
1. 压缩/解压速度慢；
2. 不支持native。
应用场景：
1. 适合对速度要求不高，但需要较高的压缩率的时候，可以作为mapreduce作业的输出格式；
2. 或者输出之后的数据比较大，处理之后的数据需要压缩存档减少磁盘空间并且以后数据用得比较少的情况；
3. 或者对单个很大的文本文件想压缩减少存储空间，同时又需要支持split，而且兼容之前的应用程序（即应用程序不需要修改）的情况。

9.用过哪些数据仓库模型。

https://www.cnblogs.com/benchen/p/6011721.html

10.解释一下shuffle的过程。

11.什么是执行计划。

12.RDD、DataSet、DataFrame的区别

https://blog.csdn.net/weixin_43087634/article/details/84398036

posted @ 2019-07-31 17:01 karry2karry 阅读(227) 评论(0) 收藏举报

刷新页面返回顶部