随笔分类 -  Big data

1 2 3 4 下一页

论文解析 -- Big Metadata: When Metadata is Big Data
摘要:要解决的问题就是对于云原生数据库,越来越大的meta应该怎么管理 传统的数据库,都是将catalog存在系统表里面 大数据系统,比如Colossus将meta存在Big table里面;Hadoop生态有Hive metastore Delta lake用事务log的方式来记录meta 并且对于AP 阅读全文

posted @ 2022-05-18 16:17 fxjwind 阅读(322) 评论(0) 推荐(0)

Apache Hudi简介
摘要:Hudi: Uber Engineering’s Incremental Processing Framework on Apache Hadoop With the evolution of storage formats like Apache Parquet and Apache ORC an 阅读全文

posted @ 2022-04-25 15:53 fxjwind 阅读(722) 评论(0) 推荐(0)

论文解析 -- Monarch: Google’s Planet-Scale In-Memory Time Series Database
摘要:Google 20年发的时序库的paper 首先看看系统架构, 设计时,首先考虑CAP的balance问题,向Spanner这样的高一致性方案,明显不适合监控系统,所以Monarch牺牲一致性来保证实时性和可用性 Monarch’s design is determined by its prima 阅读全文

posted @ 2022-04-19 17:55 fxjwind 阅读(294) 评论(0) 推荐(0)

Spark SQL: Relational Data Processing in Spark (SIGMOD’15)
摘要:Introduction Big data applications require a mix of processing techniques, data sources and storage formats. The earliest systems designed for these w 阅读全文

posted @ 2021-05-11 17:43 fxjwind 阅读(406) 评论(0) 推荐(0)

SAP HANA Database - Data Management for Modern Business Applications
摘要:简单的看下架构, 分成几个部分, Connection And Session The Connection and Session Management component creates and manages sessions and connections for the database 阅读全文

posted @ 2020-01-06 16:45 fxjwind 阅读(458) 评论(0) 推荐(0)

Impala: A Modern, Open-Source SQL Engine for Hadoop
摘要:Impala is an open-source, fully-integrated, state-of-the-art MPP SQL query engine designed speci cally to leverage the flexibility and scalability of 阅读全文

posted @ 2019-12-26 18:08 fxjwind 阅读(346) 评论(0) 推荐(0)

The Vertica Analytic Database: CStore 7 Years Later
摘要:Vertica作为C-Store项目的商业化实现,所有前置论文C-Store要先看下 The Vertica Analytic Database (Vertica) is a distributed massively parallel RDBMS system that commercialize 阅读全文

posted @ 2019-12-25 11:46 fxjwind 阅读(471) 评论(0) 推荐(0)

Amazon Redshift and the Case for Simpler Data Warehouses
摘要:Redshift是Amazon一个商业产品上的进化 但并不是技术的进化,他使用的无非都是传统数仓领域的技术 如果说创新,就是大量使用Amazon本身的云服务的云原生架构,大大提升的产品的迭代速度,可维护性,管控能力,当然前提是Amazon有那么好的基础设施可以用 架构 DataPlane 典型的Sh 阅读全文

posted @ 2019-12-23 15:16 fxjwind 阅读(435) 评论(0) 推荐(0)

Apache Kylin 简介
摘要:http://kylin.apache.org/docs/index.html https://www.infoq.cn/article/vOrjsJCgVAVPim5hsj6p Kylin 的核心思想是预计算,将数据按照指定的维度和指标,预先计算出所有可能的查询结果,利用空间换时间来加速查询模式固 阅读全文

posted @ 2019-12-18 14:06 fxjwind 阅读(941) 评论(0) 推荐(0)

Druid: A Real-time Analytical Data Store
摘要:Druid一种实时数仓,针对的场景和目的,如下比较明确 Druid was originally designed to solve problems around ingesting and exploring large quantities of transactional events (l 阅读全文

posted @ 2019-12-16 15:47 fxjwind 阅读(525) 评论(0) 推荐(0)

Mesa: GeoReplicated, Near RealTime, Scalable Data Warehousing
摘要:Mesa的定义并没有反映出他的特点,因为分布式,副本,高可用,他都是依赖google的其他基础设施完成的 他最大的特点是,和传统数仓比,可以做到near real-time的返回聚合的查询结果 算入实时数仓的范围,做到数据一致性,高吞吐的写入,并提供较好的查询性能 所以Mesa的核心是Storage 阅读全文

posted @ 2019-12-12 14:30 fxjwind 阅读(404) 评论(0) 推荐(0)

Presto: SQL on Everything
摘要:Presto是FB开源出来的实时分析引擎,可以federated的从多种数据源去读取数据,做联合查询,支持实时Interactive BI或bath ETL的需求 从其问题域来看,基本是和spark是重合的,那么两者区别是什么? https://stackoverflow.com/questions 阅读全文

posted @ 2019-12-11 14:13 fxjwind 阅读(1258) 评论(0) 推荐(0)

Confluo: Distributed Monitoring and Diagnosis Stack for High-speed Networks
摘要:https://rise.cs.berkeley.edu/blog/confluo-millisecond-level-queries-on-large-scale-streaming-data/https://ucbrise.github.io/confluo/ confluo要解决的问题, 对于 阅读全文

posted @ 2018-12-25 10:57 fxjwind 阅读(635) 评论(0) 推荐(0)

CS231n: Convolutional Neural Networks for Visual Recognition
摘要:https://zhuanlan.zhihu.com/p/28522637 https://zhuanlan.zhihu.com/p/21930884 mark 阅读全文

posted @ 2017-12-22 23:32 fxjwind 阅读(350) 评论(0) 推荐(0)

流计算技术实战 - 超大维表问题
摘要:维度表,作为数据仓库里面的概念,是维度属性的集合,比如时间维、地点维; 但这里要讨论流计算中的维度表问题, 流计算中维表问题和数据仓库中有所不同,往往是因为通过agent采集到的数据比较有限,在做数据业务的时候,需要先实时的把这些维度信息给补全; 这个问题其实就是,主数据流和多个静态表或半静态表之间的join问题。 在flink中称为side input问题,https://cwiki.a... 阅读全文

posted @ 2017-11-02 11:25 fxjwind 阅读(3948) 评论(2) 推荐(0)

Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases
摘要:INTRODUCTION 面对的问题,3个方面, In modern distributed cloud services, resilience and scalability are increasingly achieved by decoupling compute from storage 阅读全文

posted @ 2017-05-25 15:35 fxjwind 阅读(1140) 评论(0) 推荐(0)

Copycat - StateMachine
摘要:看下用户注册StateMachine的过程, MapStateMachine::new这会构造一个supplier 在build中,传入初始化ServerContext ServerContext中, reset逻辑中, 这里看到stateContext的定义, 也是一个单线程,所以这里有两个thr 阅读全文

posted @ 2017-03-16 16:41 fxjwind 阅读(418) 评论(0) 推荐(0)

Copycat - configure
摘要:Copycat server之间的configure是如何,何时被同步的? 大家可以看到,只有leader可以同步配置 1. 显式的调用LeaderState.configure LeaderState.configure /** * Commits the given configuration. */ protected CompletableFutu... 阅读全文

posted @ 2017-03-10 14:03 fxjwind 阅读(437) 评论(0) 推荐(0)

Copycat - AppendRequest
摘要:对于Command,Configuration都要通过appendEntries的方式,把Entries同步给follower LeaderState.configure /** * Commits the given configuration. */ protected CompletableFuture configure(Collection members) { ... 阅读全文

posted @ 2017-03-09 15:28 fxjwind 阅读(376) 评论(0) 推荐(0)

Copycat - 状态
摘要:Member.Status status的变迁是源于heartbeat heartbeat,append空的entries heartbeat的逻辑是会向所有的getRemoteMemberStates,发起heartbeat AVAILABLE 在初始化的时候,每个ServerMember默认是S 阅读全文

posted @ 2017-03-08 16:15 fxjwind 阅读(660) 评论(0) 推荐(0)

1 2 3 4 下一页