03 2020 档案
摘要:#分库分表 ##数据库切分概述 ###OLTP&OLAP 在互联网时代,海量数据的存储与访问成为系统设计与使用的瓶颈问题,对于海量数据处理,按照使用场景,主要分为两种类型:联机事务处理(OLTP)和联机分析处理(OLAP)。 联机事务处理(OLTP)也称为面向交易的处理系统,其基本特征是原始数据可以
阅读全文
posted @ 2020-03-13 14:57
江舟
摘要:基础API概览 API的一些基础概念在前文之中已经有些解释,已经解释过的这里做个简略的复习。 其实要强调的就是: 数据流、构建DAG图、Source、Sink、算子、延迟计算。 指定键 一些转换操作(join, coGroup, keyBy, groupBy)要求在元素集合上定义键。另外一些转换操作
阅读全文
posted @ 2020-03-12 10:40
江舟
摘要:Table API Flink API总览 如图,Flink 根据使用的便捷性和表达能力的强弱提供了 3 层 API,由上到下,表达能力逐渐增强,比如 processFunction,是最底层的 API,表达能力最强,我们可以用他来操作 state 和 timer 等复杂功能。Datastream
阅读全文
posted @ 2020-03-11 09:57
江舟
摘要:DataStream API Apache Flink 提供了 DataStream API 来实现稳定可靠的、有状态的流处理应用程序。 Flink 支持对状态和时间的细粒度控制,以此来实现复杂的事件驱动数据处理系统。 本文将搭建一个针对可疑信用卡交易行为的反欺诈检测系统。 例子分析 FraudDe
阅读全文
posted @ 2020-03-10 19:29
江舟
摘要:消息投递语义 At most once —— 消息可能丢失但不会重复投递 At least once —— 消息不会丢失但可能重复投递 Exactly once —— 消息只投递一次 许多系统都声称提供"exactly once"投递,但是仔细阅读很重要,大部分这种宣称都是误导(他们没有考虑生产者和
阅读全文
摘要:主题和日志(Topics and Logs) 一个topic是一个分类,或者说是记录被发布的时候的一个名字。对于每个主题,Kafka集群维护一个分区日志,如下图所示: 每个分区都是一个有序的、不可变的记录序列,而且记录会不断的被追加,一条记录就是一个结构化的提交日志(a structured com
阅读全文
posted @ 2020-03-05 16:20
江舟

浙公网安备 33010602011771号