dairui130

导航

随笔分类 -  spark

hive引擎的选择:tez和spark
摘要:背景 mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。 选择 tez 使用有向无环图。内存式计算。 spark 可以同时作为批式和流式的处理引擎,减少学习成本。 问题&&不便 tez: 在hive sql中使用了union 或 join操作 tez会将任务切分,每个小任务,创 阅读全文

posted @ 2019-05-30 12:10 dairui130 阅读(2888) 评论(0) 推荐(0)

hive on spark 释放session资源
摘要:背景 启动hive时,可以看到2.0以后的版本,将要弃用mr引擎,官方建议使用spark,tez等引擎。 spark同时支持批式流式处理,可以减少学习成本。所以选用了spark作为执行引擎。 hive on spark 参数优化 使用hive on spark 默认只用2个container。任务处 阅读全文

posted @ 2019-05-05 13:34 dairui130 阅读(1519) 评论(0) 推荐(0)

Spark streaming java代码
摘要:待做 阅读全文

posted @ 2019-03-03 11:15 dairui130 阅读(137) 评论(0) 推荐(0)

mysql变更数据的捕获和入库
摘要:问题:涉及状态的信息,mysql中是update的,缺少中间状态的记录。数据分析中需要这部分数据。 思路:后端服务通过监控某张表的某个字段,根据mysql的binlog文件,还原数据,发送到kafka。我们消费kafka中的数据,最终在hive的ods层形成表更数据表。 方案设计: 方案4中需要注意 阅读全文

posted @ 2019-02-27 21:15 dairui130 阅读(345) 评论(0) 推荐(0)