摘要: 最近的项目还是用的老的kafka版本(0.8),用spark 接数据的时候,如果spark 程序意外重启,重启时间内的kafka数据会丢失。我们需要实现最少消费一次,数据重复没有关系。但不能允许丢失数据。 在 Spark Streaming 中消费 Kafka 数据的时候,有两种方式分别是 1)基于 阅读全文
posted @ 2019-03-07 19:15 zuoql 阅读(781) 评论(0) 推荐(0) 编辑
摘要: 最近用到spark 接kafka数据落到kudu里,如果用默认spark 参数,会出现一些问题,下面是在生产上调优后的一些参数,供参考 //推测执行spark.locality.wait=2sspark.speculation=truespark.speculation.interval=300ss 阅读全文
posted @ 2019-03-07 18:56 zuoql 阅读(1693) 评论(0) 推荐(0) 编辑
摘要: CallQueueTooBigException 异常一般出现在RPC服务中,由RpcServer.java知DEFAULT_MAX_CALLQUEUE_SIZE = 1024 * 1024 * 1024;,即若hbase.ipc.server.max.callqueue.size未设置的话,值默认 阅读全文
posted @ 2019-03-07 18:50 zuoql 阅读(2350) 评论(0) 推荐(0) 编辑