10.5
存储格式:
textfile(不做处理, 行式存储)
sequence file(二进制格式, 占内存比textfile略小些)
orc(自带略微压缩, 列式存储)
parquet(自带略微压缩, 列式存储), 像.docx, 没有被7zip压缩照样自带压缩
在不额外lzo或者snappy压缩时, 三者查询效率差不多(当然还是没自带压缩的textfile快), 但是存储效率ORC最高占存储空间少
lzo可以额外建立索引文件使之能切片, 而snappy不能切片, 但是可以人为控制文件输出的大小, 生成snappy文件时使每个snappy不超过128M之类的
不使用额外压缩, 就把额外描述的压缩参数设为None
MR最好采用orc存储格式
Spark自身对parquet优化, 最好用parquet存储格式
orc和parquet文件存储结构都差不多, 都是先分行组, 行组内再列式存储(这一列存完了, 再存下一列)
ads层 hive导出到mysql时, 用的是hdfs文件不走hive, 故采用原格式textfile
46
浙公网安备 33010602011771号