2019 年 4月随笔档案 - LestatZ

Kafka中offsets.retention.minutes和log.retention.minutes之间的区别

摘要：前言在Kafka中，我们可能会发现两个与retention相关的配置： log.retention.minutes offsets.retention.minutes 那么它们之前的差别是什么呢？定义首先让我们看看它们在官方文档中的定义名称描述类型默认值有效值重要性 log.retentio 阅读全文

posted @ 2019-04-25 21:27 LestatZ 阅读(3380) 评论(0) 推荐(0)

如何使Spark Dataframe区分具有重复名称的列，避免References ambiguous问题

摘要：前言有时候我们在使用Spark中执行Join时候，结果集出现重复的列名，从而导致References ambiguous问题。我们可以用以下方式来解决。实例首先模拟一些数据为了防止出现重复列名的问题，首先可以指定使用哪张表的列，如下：当然我们也可以使用别名alias：除此之外，我们还可以阅读全文

posted @ 2019-04-11 10:53 LestatZ 阅读(2308) 评论(0) 推荐(0)

关于sparksql中的hint

摘要：前言在Spark中，结构化查询可以通过指定查询提示(hint)来进行优化。查询提示，即向查询加入注释，告诉查询优化器提供如何优化逻辑计划，这在查询优化器无法做出最佳决策时十分有用。 Spark SQL支持COALESCE，REPARTITION以及BROADCAST提示。在分析查询语句时，所阅读全文

posted @ 2019-04-08 11:32 LestatZ 阅读(7079) 评论(0) 推荐(0)

如何在Spark-shell中停止打印INFO日志

摘要：前言在使用Spark shell做一些测试时候会产生大量无用的INFO级别的日志，因此想把它们给禁用掉。具体方法如下。解决方法使用自定义的Log4j.properties 然后在提交spark shell时候, 配置 == conf== 即可，这种方法同样适用于Spark submit 也可阅读全文

posted @ 2019-04-02 10:31 LestatZ 阅读(3433) 评论(0) 推荐(0)

LestatZ

04 2019 档案

公告