0. 解决什么样的问题?
数据的场景
视角: 数据库看做是应用状态的存储
1.工程化实践
1.平台化建设
平台在Flink上的 平台化建设多是公司内部项目,很少进行开源
出发点:持续的降低使用门槛, 使用SQL,同时提供Python UDF等
需求:
用户是同时需要 SQL 这种高阶 API 以及更加灵活和偏底层点的 DataStream API
技术判断
SQL 能解决大多数问题,但不是全部。
在一些灵活的场景下,DataStream 能更方便和高效的解决用户的问题。
2.应用场景和生产实践
-- 创造实际业务价值
Flink 和机器学习结合使用
上线后的一些成果和经验教训
2.研究型项目和论文
系统本身具备足够强的动态调整能力: 判断性能瓶颈时是以链路为单元进行判断和测量
作业自动扩缩容机制
3.对工作的认知
ETL 作业:
对过去的一部分数据做一下简单的清洗和处理
对过去的一部分数据做一些稍微复杂点的关联和分析
机器学习训练模型的场景
数据进行深度的挖掘从而产生更深的洞察
基于批处理的机器学习训练、实时模型预测等场景。历史数据重新统计一遍----=补数据
数据之上引发的计算模式- 不同的计算模式
传统的 Data Processing
消息驱动的 Application 场景
数仓:
数据仓库有两个环节:数据仓库的构建与数据仓库的应用
数据仓库的构建: 对 ETL 过程、存储-实时产生结果、处理和保存大量异构数据
数据仓库的应用:
发展:
典型的数仓存储是 HDFS/Hive, ETL 可以是 MapReduce 脚本或 HiveSQL。
Kappa 架构中:需求修改或历史数据重新处理都通过上游重放完成
真实的场景中,很多时候并不是完全规范的 Lambda 架构或 Kappa 架构
数据仓库这种提前规定 schema 的模式 - 数据仓库模式是 schema on write ,数据湖模式是 schema on read
稳定性: 系统压测;主备链路保障
参考:
一文带你了解 Flink Forward 柏林站全部重点内容 https://developer.aliyun.com/article/721988
如果你也想做实时数仓… https://developer.aliyun.com/article/717852