04 2019 档案

摘要:前言 在Kafka中,我们可能会发现两个与retention相关的配置: log.retention.minutes offsets.retention.minutes 那么它们之前的差别是什么呢? 定义 首先让我们看看它们在官方文档中的定义 名称描述类型默认值有效值重要性 log.retentio 阅读全文
posted @ 2019-04-25 21:27 LestatZ 阅读(3380) 评论(0) 推荐(0)
摘要:前言 有时候我们在使用Spark中执行Join时候,结果集出现重复的列名,从而导致References ambiguous问题。我们可以用以下方式来解决。 实例 首先模拟一些数据 为了防止出现重复列名的问题,首先可以指定使用哪张表的列,如下: 当然我们也可以使用别名alias: 除此之外,我们还可以 阅读全文
posted @ 2019-04-11 10:53 LestatZ 阅读(2308) 评论(0) 推荐(0)
摘要:前言 在Spark中,结构化查询可以通过指定查询提示(hint)来进行优化。 查询提示,即向查询加入注释,告诉查询优化器提供如何优化逻辑计划, 这在查询优化器无法做出最佳决策时十分有用。 Spark SQL支持COALESCE,REPARTITION以及BROADCAST提示。 在分析查询语句时,所 阅读全文
posted @ 2019-04-08 11:32 LestatZ 阅读(7079) 评论(0) 推荐(0)
摘要:前言 在使用Spark shell做一些测试时候会产生大量无用的INFO级别的日志,因此想把它们给禁用掉。具体方法如下。 解决方法 使用自定义的Log4j.properties 然后在提交spark shell时候, 配置 == conf== 即可, 这种方法同样适用于Spark submit 也可 阅读全文
posted @ 2019-04-02 10:31 LestatZ 阅读(3433) 评论(0) 推荐(0)