WELCOME

摘要:挖坑 https://databricks.com/blog 阅读全文
posted @ 2020-04-30 19:51 dretrtg 阅读(23) 评论(0) 推荐(0) 编辑
摘要:肯定是放在里面了,这样会大大减少join的数据量,增加效率 阅读全文
posted @ 2020-04-27 21:09 dretrtg 阅读(16) 评论(0) 推荐(0) 编辑
摘要:这两天也是被left join整蒙了 尽量使用通俗的解释 left join左边的字段不变,右边的字段在左边有的,就续在左边字段的右侧,如果左边没有,就显示为NULL 阅读全文
posted @ 2020-04-27 21:08 dretrtg 阅读(12) 评论(0) 推荐(0) 编辑
摘要:hive有时执行速度很慢,若hive on spark 的话,在sparkUI上可以清楚看到是否数据倾斜 优化方法: 1、增加reduce数目 hive.exec.reducers.bytes.per.reducer(每个reduce任务处理的数据量,默认为1000^3=1G) hive.exec. 阅读全文
posted @ 2020-04-20 20:08 dretrtg 阅读(11) 评论(0) 推荐(0) 编辑
摘要:除解决数据倾斜问题外,还要开启推测执行,寻找另一个executor执行task,哪个先完成就取哪个结果,再kill掉另一个。 阅读全文
posted @ 2020-04-20 20:06 dretrtg 阅读(23) 评论(0) 推荐(0) 编辑
摘要:一致性、可用性、分区容错性 一个分布式系统最多满足两项 ZK/Hbase满足CP 双NN满足CA RDBMS满足CA 阅读全文
posted @ 2020-04-20 20:03 dretrtg 阅读(11) 评论(0) 推荐(0) 编辑
摘要:可以只说这三个 阅读全文
posted @ 2020-04-20 20:00 dretrtg 阅读(14) 评论(0) 推荐(0) 编辑
摘要:共性: 1、都不能被实例化 2、接口中实现类或者抽象类的子类只有实现了接口或抽象类中方法后才能实例化 区别: 1、接口只有方法的定义,JDK1.8后可以定义default方法体,抽象类可以有定义或实现。 2、实现和继承关键字不同,Java仅支持单继承但支持多实现 3、接口强调特定功能的实现,便于后序 阅读全文
posted @ 2020-04-20 19:48 dretrtg 阅读(14) 评论(0) 推荐(0) 编辑
摘要:COALESCE是一个函数, (expression_1, expression_2, ...,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。使用COALESCE在于大部分包含空值的表达式最终将返回空值。——————— 阅读全文
posted @ 2020-04-17 19:34 dretrtg 阅读(13) 评论(0) 推荐(0) 编辑
摘要:简单实用的函数 阅读全文
posted @ 2020-04-15 21:36 dretrtg 阅读(35) 评论(0) 推荐(0) 编辑