spark - 随笔分类 - dairui130

hive引擎的选择：tez和spark

摘要：背景 mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。选择 tez 使用有向无环图。内存式计算。 spark 可以同时作为批式和流式的处理引擎，减少学习成本。问题&&不便 tez：在hive sql中使用了union 或 join操作 tez会将任务切分,每个小任务，创阅读全文

posted @ 2019-05-30 12:10 dairui130 阅读(2921) 评论(0) 推荐(0)

hive on spark 释放session资源

摘要：背景启动hive时，可以看到2.0以后的版本，将要弃用mr引擎，官方建议使用spark，tez等引擎。 spark同时支持批式流式处理，可以减少学习成本。所以选用了spark作为执行引擎。 hive on spark 参数优化使用hive on spark 默认只用2个container。任务处阅读全文

posted @ 2019-05-05 13:34 dairui130 阅读(1532) 评论(0) 推荐(0)

Spark streaming java代码

摘要：待做阅读全文

posted @ 2019-03-03 11:15 dairui130 阅读(139) 评论(0) 推荐(0)

mysql变更数据的捕获和入库

摘要：问题：涉及状态的信息，mysql中是update的，缺少中间状态的记录。数据分析中需要这部分数据。思路：后端服务通过监控某张表的某个字段，根据mysql的binlog文件，还原数据，发送到kafka。我们消费kafka中的数据，最终在hive的ods层形成表更数据表。方案设计：方案4中需要注意阅读全文

posted @ 2019-02-27 21:15 dairui130 阅读(349) 评论(0) 推荐(0)

dairui130

导航

公告

随笔分类 - spark

hive引擎的选择：tez和spark

hive on spark 释放session资源

Spark streaming java代码

mysql变更数据的捕获和入库