[置顶] 阿里云数据库团队校园春季招聘

正文内容加载中...
posted @ 2014-11-28 11:11 fxjwind 阅读(837) 评论(0) 推荐(0) 编辑

列存格式

摘要:https://zhuanlan.zhihu.com/p/35622907 https://blog.csdn.net/yu616568/article/details/51868447 为什么要用列存这里就不聊了,直接看格式的演变 NSM (N-ary Storage Model) ,按行存储 D 阅读全文
posted @ 2020-05-14 14:46 fxjwind 阅读(24) 评论(0) 推荐(0) 编辑

Optimizing Druid with Roaring bitmaps

摘要:这篇主要是说,如何利用compressed bitmap来提升查询性能 虽然之前有很多bitmap的压缩方案,但是,新提出的Roaring bitmap会更加高效 参考,Better bitmap performance with Roaring bitmaps BitMap,为了有效和compac 阅读全文
posted @ 2020-04-27 15:52 fxjwind 阅读(25) 评论(0) 推荐(0) 编辑

Processing a Trillion Cells per Mouse Click

摘要:Google的论文, Google已经有一些大数据系统,都是基于Full Scan 这里PowerDrill,核心利用了skipping技术,可以提升10到100倍的查询性能 这篇论文的题目让人有点摸不着头脑,这里给出了解释, 整体的思路, 就是先skip,然后再full scan 那么就是,他这里 阅读全文
posted @ 2020-04-26 12:16 fxjwind 阅读(26) 评论(0) 推荐(0) 编辑

Fine-grained Partitioning for Aggressive Data Skipping

摘要:AMP Lab的论文 对于数据库的核心问题,如何让查询变的更快,当需要查询的数据越来越多的时候 这段写的还是很清晰的,两个思路 读的更快,比如cache,并行化,数据压缩 读的更少, 比如列存,sampling获取近似,还有本文的主题data skipping 传统的data skipping,基于 阅读全文
posted @ 2020-04-24 17:11 fxjwind 阅读(18) 评论(0) 推荐(0) 编辑

F1 Query: Declarative Querying at Scale

摘要:F1相关的论文两篇, F1: A Distributed SQL Database That Scales F1 Query: Declarative Querying at Scale F1: A Distributed SQL Database That Scales F1是一个Globally 阅读全文
posted @ 2020-04-09 11:31 fxjwind 阅读(26) 评论(0) 推荐(0) 编辑

Data Blocks: Hybrid OLTP and OLAP on Compressed Storage using both Vectorization and Compilation

摘要:本文的主要目的是,引入DataBlocks,解决hybrid数据库的问题 Hybrid系统难点,在于AP和TP在很多方面,优化思路是矛盾的 比如compression,对于ap可以提升查询性能因为降低带宽使用,但是对于TP反而降低了查询性能,因为查询的时候需要解压,而且影响索引 所以大部分Hybri 阅读全文
posted @ 2020-03-26 18:00 fxjwind 阅读(36) 评论(0) 推荐(0) 编辑

How to Architect a Query Compiler

摘要:这个有两篇论文 How to Architect a Query Compiler How to Architect a Query Compiler, Revisited 是完全不同的两拨人写的,内容也不尽相同,我们的重点是Revisited这篇 How to Architect a Query 阅读全文
posted @ 2020-03-24 18:26 fxjwind 阅读(39) 评论(0) 推荐(0) 编辑

Evaluating EndtoEnd Optimization for Data Analytics Applications in Weld

摘要:参考,从 Weld 论文看执行器的优化技术 需要解决的问题, 当前数据分析应用,会用到很多libraries,比如Numpy,Pandas,TensorFlow,Spark等 这些libraries的接口和数据结构都是不一样的,所以如果要提升应用的性能,你只能one by one的去提升每个liba 阅读全文
posted @ 2020-03-17 15:43 fxjwind 阅读(28) 评论(0) 推荐(0) 编辑

Everything You Always Wanted to Know About Compiled and Vectorized Queries But Were Afraid to Ask

摘要:Andy这篇论文的题目很骚,好像他之前列的题目是最好的关于。。。的论文,被评委毙了,反正意思就是特别自信,特别牛逼。 执行器优化,是AP引擎的核心问题,对当然后续AP和TP的边界会越来越模糊,总之需要大量计算的引擎,执行器就会成为瓶颈 尤其是当前硬件的进化,导致原先成为系统瓶颈的IO已经慢慢不再是瓶 阅读全文
posted @ 2020-03-16 16:39 fxjwind 阅读(57) 评论(3) 推荐(0) 编辑

Pinot: Realtime OLAP for 530 Million Users

摘要:传统的TP库难以应对AP的需求 如果要应对AP的需求, 现在有几种做法, 列存,列存可以降低数据传输量,而且让压缩更有效 NewSql,Hybrid TP/AP,一般都是内存数据库 离线数据库,Hive,Presto,Spark,无论快慢,它自己本身不存储数据的,只是一个执行引擎和查询引擎 预聚合c 阅读全文
posted @ 2020-01-19 16:55 fxjwind 阅读(47) 评论(0) 推荐(0) 编辑

统计