技术汇总_Flink和数仓

0. 解决什么样的问题?

  数据的场景
  视角: 数据库看做是应用状态的存储

1.工程化实践

1.平台化建设
    平台在Flink上的 平台化建设多是公司内部项目,很少进行开源
     出发点:持续的降低使用门槛, 使用SQL,同时提供Python UDF等
     需求:
         用户是同时需要 SQL 这种高阶 API 以及更加灵活和偏底层点的 DataStream API
     技术判断
         SQL 能解决大多数问题,但不是全部。
           在一些灵活的场景下,DataStream 能更方便和高效的解决用户的问题。    
2.应用场景和生产实践
     -- 创造实际业务价值
	     Flink 和机器学习结合使用
上线后的一些成果和经验教训

2.研究型项目和论文

系统本身具备足够强的动态调整能力: 判断性能瓶颈时是以链路为单元进行判断和测量
作业自动扩缩容机制

3.对工作的认知

  ETL 作业:
      对过去的一部分数据做一下简单的清洗和处理
	  对过去的一部分数据做一些稍微复杂点的关联和分析
  机器学习训练模型的场景
      数据进行深度的挖掘从而产生更深的洞察
  基于批处理的机器学习训练、实时模型预测等场景。历史数据重新统计一遍----=补数据
 数据之上引发的计算模式- 不同的计算模式
      传统的 Data Processing 
      消息驱动的 Application 场景
数仓:
   数据仓库有两个环节:数据仓库的构建与数据仓库的应用
     数据仓库的构建: 对 ETL 过程、存储-实时产生结果、处理和保存大量异构数据
     数据仓库的应用:
   发展:
     典型的数仓存储是 HDFS/Hive,  ETL 可以是 MapReduce 脚本或 HiveSQL。
	 Kappa 架构中:需求修改或历史数据重新处理都通过上游重放完成
	 真实的场景中,很多时候并不是完全规范的 Lambda 架构或 Kappa 架构
	 数据仓库这种提前规定 schema 的模式 - 数据仓库模式是  schema on write ,数据湖模式是  schema on read
	 稳定性: 系统压测;主备链路保障

参考:

 一文带你了解 Flink Forward 柏林站全部重点内容 https://developer.aliyun.com/article/721988
 如果你也想做实时数仓… https://developer.aliyun.com/article/717852
posted @ 2020-11-30 15:55  辰令  阅读(158)  评论(0)    收藏  举报