摘要: Checkpointing 一个流应用程序必须全天候运行,所有必须能够解决应用程序逻辑无关的故障(如系统错误,JVM崩溃等)。为了使这成为可能,Spark Streaming需要checkpoint足够的信息到容错存储系统中, 以使系统从故障中恢复。 Metadata checkpointing:保 阅读全文
posted @ 2016-09-01 20:50 thinker1017 阅读(385) 评论(0) 推荐(0)
摘要: 如果只是用kafka-topics.sh的delete命令删除topic,会有两种情况: 如果当前topic没有使用过即没有传输过信息:可以彻底删除 如果当前topic有使用过即有过传输过信息:并没有真正删除topic只是把这个topic标记为删除(marked for deletion)。 要彻底 阅读全文
posted @ 2016-09-01 20:47 thinker1017 阅读(19414) 评论(0) 推荐(0)
摘要: 最近在spark读取kafka消息时,每次读取都会从kafka最新的offset读取。但是如果数据丢失,如果在使用Kafka来分发消息,在数据处理的过程中可能会出现处理程序出异常或者是其它的错误,会造成数据丢失或不一致。这个时候你也许会想要通过kafka把数据从新处理一遍,或者指定kafka的off 阅读全文
posted @ 2016-09-01 20:44 thinker1017 阅读(26327) 评论(0) 推荐(2)