07 2022 档案
摘要:文章目录 概念数据编织数据网格网格 VS 编织 概念 近来,数据管理领域的热词也是不少,从国外来的数据编织 (Data Fabric) 和数据网格 (Data Mesh) 是两个经常被提及的新话题。为了跟上新技术的步伐,我也对这俩概念做了一点功课,和大家一起探讨。 Gartner给数据编织(Data
阅读全文
摘要:概述 ThoughtWorks最近一期的技术雷达,把Data Mesh从“评估”调升到了“试验”。ThoughtWorks眼中的“试验”意味着这项技术“值得追求。重要的是理解如何建立这种能力。企业应该在风险可控的项目中尝试此技术。” 文章内容大部分来自 Zhamak Dehghani 的《How t
阅读全文
摘要:一.CheckPoints 为了使Flink的状态具有良好的容错性,Flink提供了检查点机制(Checkpoints)。通过检查点机制,Flink定期在数据流上生成checkpoint barrier ,当某个算子收到barrier时,即会基于当前状态生成一份快照,然后再将该barrier传递到下
阅读全文
摘要:背景 从事大数据开发,参与Linkis社区建设很长时间了,Beam 和 Hive Hook 血缘 搭建大数据平台 缺点 没有统一外部访问,形式比较单一 开发成本比较高,新手不容易扩展 元数据访问复杂 架构 选型 Apache Livy是一种通过REST接口与Spark集群轻松交互的服务。 Apach
阅读全文
摘要:文章目录 概览竞品架构与工作流程插件最上层插件抽象实现细节Spark插件架构Flink插件Java spi 命令SparkFlink 概览 SeaTunnel 是一个非常易用的支持海量数据实时同步的超高性能分布式数据集成平台,每天可以稳定高效同步数百亿数据,已在近百家公司生产上使用。 SeaTunn
阅读全文
摘要:文章目录 背景历程2008~2015 孕育2017 问世2018 爆发后的疑惑 总结思考 背景 中台被彻底炒火,就好像当初只要有存储的公司,就要整理出大数据环境体系一样,各个行业大厂去做类似中台建设的案例,有成功的,有规划建设一段时间,无法支撑的等等,诸如此类,那么这个概念是否只是一时噱头呢?中台的
阅读全文
摘要:文章目录 存储索引MPP算子优化向量化执行引擎数据模型导入事务标准sql高并发资源隔离 存储 列示存储 数据按列连续存储,按需读取多种编码方式和自适应编码在编码基础上基于Lz4算法进行压缩1:8数据压缩比 存储编码方式 文件格式 多副本存储,自动数据迁移、副本均衡 索引 自动写入的智能索引 前缀稀疏
阅读全文
摘要:文章目录 概述架构组件 概述 Apache Doris是一个现代化的MPP分析型数据库产品。仅需亚秒级响应时间即可获得查询结果,有效地支持实时数据分析。Apache Doris的分布式架构非常简洁,易于运维,并且可以支持10PB以上的超大数据集。 Apache Doris可以满足多种数据分析需求,例
阅读全文
摘要:写此文章纪念今天成为 “CSDN 博客专家” 回顾往事 2015-2016年,研究Java服务端开发,没有方向感,很多东西跟着业务走。 2017上半年,管理前端,那时候是工作需要,本身对这个兴趣不大,做些原生的组件,后来申请做大数据方面,慢慢思路打开了,数据的本质是消除信息的不确定性。 2017-2
阅读全文
摘要:文章目录 1 2 产品介绍 2.1 数据资产 2.1.1 数据总览 2.1.2 数据资产目录 2.1.2.1 资产检索 2.1.2.2 资产表详情 2.1.2.2.1 字段信息 2.1.2.2.2 血源关系 2.1.2.2.3 分区信息 2.2 数据质量 2.2.1 工作概览 2.2.2 规则管理
阅读全文
摘要:一.简介 The Dataflow Model 是 Google Research 于2015年发表的一篇流式处理领域的有指导性意义的论文,它对数据集特征和相应的计算方式进行了归纳总结,并针对大规模/无边界/乱序数据集,提出一种可以平衡准确性/延迟/处理成本的数据模型。这篇论文的目的不在于解决目前流
阅读全文
摘要:一.简介 Apache Doris 是一个现代化的 MPP 分析型数据库产品,仅需要亚秒级响应时间即可获得查询结果,可有效的支持实时数据分析。 前置条件 CPU:2C(最低)8C(推荐) 内存:4G(最低)48G(推荐) 硬盘:100G(最低)400G(推荐) 平台:MacOS(Intel)、Lin
阅读全文