摘要:
1.压缩 在Hadoop中MR一共支持四种编码分别是:default,gzip,bzip2,lzo和snappy 下面是这几种压缩格式的说明: 压缩格式 工具 算法 后缀名 是否可切分 default 无 default .deflate 不可以切分 gzip gzip default .gzp 不 阅读全文
posted @ 2019-12-23 15:08
悔不该放开那华佗哟
阅读(533)
评论(0)
推荐(0)
摘要:
1.什么是SparkRDD算子: 总的来讲RDD是Spark最小的数据抽象,每一个rdd算子都拥有五个主要的属性: 1.RDD是一组已经分好区的数据集 2.RDD拥有计算分区数据的功能 3.依赖其他RDD 4.对于key-value格式的RDD,可以自定义分区 5.RDD更喜欢在数据本地计算数据(即 阅读全文
posted @ 2019-12-23 14:58
悔不该放开那华佗哟
阅读(459)
评论(0)
推荐(0)

浙公网安备 33010602011771号