随笔分类 -  spark

摘要:pom文件: kafka2.2.1和cdh6.3.0+spark2.4.0+版本 <dependencies> <dependency> <groupId>org.apache.kafka</groupId> <artifactId>kafka_2.10</artifactId> <version> 阅读全文
posted @ 2021-10-12 09:44 帅东我不帅 阅读(48) 评论(0) 推荐(0)
摘要:这个问题是在服务器上报的,本地还是行的通的。 本地和服务器都是广播过变量的,服务器就是不行,解决方案是将结果数据返回成一个array,在外部调用session进行存储 今天的第二个问题 dataframe也可以直接调用算子,但是无结果,需要df.collect。收集一下之后再进行数据处理 阅读全文
posted @ 2020-11-13 17:29 帅东我不帅 阅读(497) 评论(0) 推荐(0)
摘要:写入时所报异常 org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest:Found unrecoverable error[172.0.0.1:9200] returned Bad Request(400) - closed:Bailing out. 阅读全文
posted @ 2020-07-11 10:55 帅东我不帅 阅读(552) 评论(0) 推荐(0)
摘要:首先看到下面的timing out就是超时,再看前面的state是状态,大致意思就是说修改状态超时,因为我的是sparkStreaming任务,它是批次处理数据的,每个批次结束后都会修改状态,而超时大致就与这个地方有关 此处设置的超时时间是24小时,此处将其注释掉就ok java.lang.Ille 阅读全文
posted @ 2020-07-10 09:26 帅东我不帅 阅读(336) 评论(0) 推荐(0)
摘要:java.io.NotSerializableException: scala.collection.convert.Wrappers$MapWrapperSerialization stack: - object not serializable (class: scala.collection. 阅读全文
posted @ 2020-05-13 08:59 帅东我不帅 阅读(953) 评论(0) 推荐(0)