摘要:
MR的计算流程设计 step1:读取数据:Input 功能一:实现分片,将读取到的数据进行划分,将不同的数据才能分给不同Task 功能二:转换KV step2:处理数据:Map、Shuffle、Reduce Map:负责数据处理:一对一的转换,多对一的过滤 功能一:构建分布式并行Task,每个分片对 阅读全文
posted @ 2022-08-14 21:39
hai_sir
阅读(244)
评论(0)
推荐(0)
摘要:
应用场景 离线场景:实现离线数据仓库中的数据清洗、数据分析、即席查询等应用 比较成熟,工作中主要的应用场景 使用Spark对各种数据源数据进行处理:Hive、RDBMS、文件 Hive数仓常见处理引擎:Spark、Impala、Presto Impala:底层是C语言,性能最好,SQL开发,集成Hi 阅读全文
posted @ 2022-08-14 21:34
hai_sir
阅读(630)
评论(0)
推荐(0)
摘要:
定义:基于内存式计算的分布式的==统一化==的数据分析引擎 功能:多语言数据分析引擎工具栈 实现离线数据批处理:类似于MapReduce、Pandas,写代码做处理 实现交互式即时数据查询:类似于Hive、Presto、Impala,使用SQL做即席查询分析 实现实时数据处理:类似于Storm、Fl 阅读全文
posted @ 2022-08-14 21:32
hai_sir
阅读(644)
评论(0)
推荐(0)

浙公网安备 33010602011771号