08 2019 档案

摘要:cgroup是Control Groups的缩写,是Linux 内核提供的一种可以限制、记录、隔离进程组所使用的物理资源(如 cpu、memory、磁盘IO等等) 的机制,被LXC、docker等很多项目用于实现进程资源控制 cgroup将任意进程进行分组化管理的 Linux 内核功能。cgroup 阅读全文

posted @ 2019-08-29 10:51 深圳私塾 阅读(155) 评论(0) 推荐(0)

摘要:所有的字段都默认支持doc values,如果你确定你不需要在某个字段上排序或者聚合或者在脚本中访问,你可以disable掉; 根据一组测试;数据集在2700W; 全部Field doc values false 节约的存储空间大约为60% 阅读全文

posted @ 2019-08-22 14:15 深圳私塾 阅读(119) 评论(0) 推荐(0)

摘要:通过测试以及以上的相关调研编写了各组件各个方面的综合对比分析表,这里采用5分为满分来比较,如下表: 阅读全文

posted @ 2019-08-20 18:15 深圳私塾 阅读(407) 评论(0) 推荐(0)

摘要:行式存储or列式存储:Parquet和ORC都以列的形式存储数据,而Avro以基于行的格式存储数据。 就其本质而言,面向列的数据存储针对读取繁重的分析工作负载进行了优化,而基于行的数据库最适合于大量写入的事务性工作负载。 压缩率:基于列的存储区Parquet和ORC提供的压缩率高于基于行的Avro格 阅读全文

posted @ 2019-08-20 18:13 深圳私塾 阅读(235) 评论(0) 推荐(0)

摘要: 阅读全文

posted @ 2019-08-20 17:49 深圳私塾 阅读(90) 评论(0) 推荐(0)

导航